数据挖掘总结

2024-08-15

数据挖掘总结（共8篇）

数据挖掘总结篇1

数据挖掘总结（职业篇）

数据分析微信公众号datadw——关注你想了解的，分享你需要的。前面对数据挖掘相关资源等等进行了总结。但是，很多人不明白学习数据挖掘以后干什么，这个问题也经常被问到。记得刚学数据挖掘的时候，有一个老师说学数据挖掘有什么用，你以后咋找工作。当时听了，觉得很诧异，不知道他为何有此一问。数据挖掘在国外是一份很不错的工作。我喜欢数据挖掘，因为它很有趣。很高兴以后就从事这方面的工作啦。写论文之余，也考虑一下数据挖掘工程师的职业规划。以下是从网上找的一些相关资料介绍,和即将走上数据挖掘岗位或是想想这方面发展的朋友共享：

BI职业发展方向：数据分析师---商业分析师--管理者

但是在每个公司，可能有不同的发展方向，但是大致上是从数据挖掘工程师起步。DMFighter：

数据挖掘从业人员工作分析 1.数据挖掘从业人员的愿景：

数据挖掘就业的途径从我看来有以下几种，（注意：本文所说的数据挖掘不包括数据仓库或数据库管理员的角色）。

A：做科研(在高校、科研单位以及大型企业，主要研究算法、应用等)B：做程序开发设计（在企业做数据挖掘及其相关程序算法的实现等）C：数据分析师（在存在海量数据的企事业单位做咨询、分析等）2.数据挖掘从业人员切入点：根据上面的从业方向倒序并延伸来说说需要掌握的技能。

C，数据分析师：需要有深厚的数理统计基础，可以不知道人工智能和计算机编程等相关技术，但是需要熟练使用主流的数据挖掘（或统计分析）工具。从这个方面切入数据挖掘领域的话你需要学习《数理统计》、《概率论》、《统计学习基础：数据挖掘、推理与预测》、《金融数据挖掘》,《业务建模与数据挖掘》、《数据挖掘实践》等，当然也少不了你使用的工具的对应说明书了，如SPSS、SAS等厂商的《SAS数据挖掘与分析》、《数据挖掘Clementine应用实务》、《EXCEL 2007数据挖掘完全手册》等，如果多看一些如《中文版数据挖掘原理》等书籍那就更好了。

B，程序设计开发：主要是实现数据挖掘现有的算法和研发新的算法以及根据实际需要结合核心算法做一些程序开发实现工作。要想扮演好这个角色，你不但需要熟悉至少一门编程语言如（C,C++,Java,Delphi等）和数据库原理和操作，对数据挖掘基础课程有所了解，读过《数据挖掘概念与技术》（韩家炜著）、《人工智能及其应用》。有一点了解以后，如果对程序比较熟悉的话并且时间允许，可以寻找一些开源的数据挖掘软件研究分析，也可以参考如《数据挖掘：实用机器学习技术及Java实现》等一些教程。

A.做科研：这里的科研相对来说比较概括，属于技术型的相对高级级别，也是B，C的归宿，那么相应的也就需要对B、C的必备基础知识了。

-----------数据挖掘人员需具备以下基本条件，才可以完成数据挖掘项目中的相关任务。

一、专业技能

硕士以上学历，数据挖掘、统计学、数据库相关专业，熟练掌握关系数据库技术，具有数据库系统开发经验

熟练掌握常用的数据挖掘算法

具备数理统计理论基础，并熟悉常用的统计工具软件

二、行业知识

具有相关的行业知识，或者能够很快熟悉相关的行业知识

三、合作精神

具有良好的团队合作精神，能够主动和项目中其他成员紧密合作

四、客户关系能力

具有良好的客户沟通能力，能够明确阐述数据挖掘项目的重点和难点，善于调整客户对数据挖掘的误解和过高期望

具有良好的知识转移能力，能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力

进阶能力要求

数据挖掘人员具备如下条件，可以提高数据挖掘项目的实施效率，缩短项目周期。

具有数据仓库项目实施经验，熟悉数据仓库技术及方法论

熟练掌握SQL语言，包括复杂查询、性能调优

熟练掌握ETL开发工具和技术

熟练掌握Microsoft Office软件，包括Excel和PowerPoint中的各种统计图形技术

善于将挖掘结果和客户的业务管理相结合，根据数据挖掘的成果向客户提供有价值的可行性操作方案

五、应用及就业领域

当前数据挖掘应用主要集中在电信(客户分析)，零售(销售预测)，农业(行业数据预测)，网络日志(网页定制)，银行(客户欺诈),电力(客户呼叫)，生物(基因)，天体(星体分类)，化工，医药等方面。当前它能解决的问题典型在于：数据库营销(Database Marketing)、客户群体划分(Customer Segmentation &Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为，以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等，在许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店()，会发现当你选中一本书后，会出现相关的推荐数目“Customers who bought this book alsobought”，这背后就是数据挖掘技术在发挥作用。

数据挖掘的对象是某一专业领域中积累的数据；挖掘过程是一个人机交互、多次反复的过程；挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business First, techniquesecond”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反，有其它行业背景是从事数据挖掘的一大优势。如有销售，财务，机械，制造，call center等工作经验的,通过学习数据挖掘，可以提升个人职业层次，在不改变原专业的情况下，从原来的事务型角色向分析型角色转变。从80年代末的初露头角到90年代末的广泛应用，以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。

数据采集分析专员

职位介绍：数据采集分析专员的主要职责是把公司运营的数据收集起来，再从中挖掘出规律性的信息来指导公司的战略方向。这个职位常被忽略，但相当重要。由于数据库技术最先出现于计算机领域，同时计算机数据库具有海量存储、查找迅速、分析半自动化等特点，数据采集分析专员最先出现于计算机行业，后来随着计算机应用的普及扩展到了各个行业。该职位一般提供给懂数据库应用和具有一定统计分析能力的人。有计算机特长的统计专业人员，或学过数据挖掘的计算机专业人员都可以胜任此工作，不过最好能够对所在行业的市场情况具有一定的了解。

求职建议：由于很多公司追求短期利益而不注重长期战略的现状，目前国内很多企业对此职位的重视程度不够。但大型公司、外企对此职位的重视程度较高，随着时间的推移该职位会有升温的趋势。另外，数据采集分析专员很容易获得行业经验，他们在分析过程中能够很轻易地把握该行业的市场情况、客户习惯、渠道分布等关键情况，因此如果想在某行创业，从数据采集分析专员干起是一个不错的选择。

市场/数据分析师

1.市场数据分析是现代市场营销科学必不可少的关键环节: Marketing/Data Analyst从业最多的行业: Direct Marketing(直接面向客户的市场营销)吧，自90年代以来,Direct Marketing越来越成为公司推销其产品的主要手段。根据加拿大市场营销组织(Canadian MarketingAssociation)的统计数据: 仅1999年一年 Direct Marketing就创造了470000 个工作机会。从1999至2000，工作职位又增加了30000个。为什么Direct Marketing需要这么多Analyst呢? 举个例子, 随着商业竞争日益加剧，公司希望能最大限度的从广告中得到销售回报, 他们希望能有更多的用户来响应他们的广告。所以他们就必需要在投放广告之前做大量的市场分析工作。例如，根据自己的产品结合目标市场顾客的家庭收入，教育背景和消费趋向分析出哪些地区的住户或居民最有可能响应公司的销售广告，购买自己的产品或成为客户，从而广告只针对这些特定的客户群。这样有的放矢的筛选广告的投放市场既节省开销又提高了销售回报率。但是所有的这些分析都是基于数据库，通过数据处理，挖掘，建模得出的，其间，市场分析师的工作是必不可少的。

2.行业适应性强: 几乎所有的行业都会应用到数据, 所以作为一名数据/市场分析师不仅仅可以在华人传统的IT行业就业，也可以在政府，银行，零售，医药业，制造业和交通传输等领域服务。

现状与前景

数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学科。它是统计学、机器学习、数据库、模式识别、人工智能等学科的交叉。在中国各重点院校中都已经开了数据挖掘的课程或研究课题。比较著名的有中科院计算所、复旦大学、清华大学等。另外，政府机构和大型企业也开始重视这个领域。

据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现，这些企业的3年平均投资回报率为401%，其中25%的企业的投资回报率超过600%。调查结果还显示，一个企业要想在复杂的环境中获得成功，高层管理者必须能够控制极其复杂的商业结构，若没有详实的事实和数据支持，是很难办到的。因此，随着数据挖掘技术的不断改进和日益成熟，它必将被更多的用户采用，使更多的管理者得到更多的商务智能。

根据IDC(International DataCorporation)预测说2004年估计BI行业市场在140亿美元。现在，随着我国加入WTO，我国在许多领域，如金融、保险等领域将逐步对外开放，这就意味着许多企业将面临来自国际大型跨国公司的巨大竞争压力。国外发达国家各种企业采用商务智能的水平已经远远超过了我国。美国Palo Alto 管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示，在金融领域，商务智能技术的应用水平已经达到或接近70%，在营销领域也达到50%，并且在未来的3年中，各个应用领域对该技术的采纳水平都将提高约50%。

现在，许多企业都把数据看成宝贵的财富，纷纷利用商务智能发现其中隐藏的信息，借此获得巨额的回报。国内暂时还没有官方关于数据挖掘行业本身的市场统计分析报告，但是国内数据挖掘在各个行业都有一定的研究。据国外专家预测，在今后的5—10年内，随着数据量的日益积累以及计算机的广泛应用，数据挖掘将在中国形成一个产业。

众所周知，IT就业市场竞争已经相当激烈，而数据处理的核心技术---数据挖掘更是得到了前所未有的重视。数据挖掘和商业智能技术位于整个企业IT-业务构架的金字塔塔尖，目前国内数据挖掘专业的人才培养体系尚不健全，人才市场上精通数据挖掘技术、商业智能的供应量极小，而另一方面企业、政府机构和和科研单位对此类人才的潜在需求量极大，供需缺口极大。如果能将数据挖掘技术与个人已有专业知识相结合，您必将开辟职业生涯的新天地！

职业薪酬

就目前来看，和大多IT业的职位一样，数据仓库和数据挖掘方面的人才在国内的需求工作也是低端饱和，高端紧缺，在二线成熟，高端数据仓库和数据挖掘方面的人才尤其稀少。高端数据仓库和数据挖掘人才需要熟悉多个行业，至少有3年以上大型DWH和BI经验，英语读写流利，具有项目推动能力，这样的人才年薪能达到20万以上。

数据挖掘总结篇2

关键词：泄泻,中医传承辅助系统 (V2.5) ,董湘玉,组方规律

董湘玉 (1952-) , 女, 主任医师, 国家级名老中医, 贵州省第一批名中医, 从事中医临床工作40余载, 擅长中医消化系统疾病治疗、中医心理治疗、中医糖尿病治疗。

名老中医经验总结与传承是中医学发展的重要环节, 且刻不容缓。现有对董老临床经验总结包括:跟师随诊:如周雅杰[1]跟师随诊后总结导师运用五泻心汤治疗心下痞经验;借助临床科研观察:如赵小红[2]对62例CSG患者进行研究, 发现柴胡舒肝散联合生物反馈治疗CSG患者疗效优于对照组。上述方法对董老经验的总结继承及中医学的发展发挥重要作用, 但有其局限性。运用现代科学技术挖掘整理名老中医经验, 是现代科技成果同传统医学结合的有效方式。医案是中医临床诊疗过程的体现, 通过对名老中医诊疗医案进行分析, 可深入了解医家对疾病的认识、组方的思路和用药的特点, 对中医药的学术继承与创新有着重要意义。本文收集筛选2014-2016年间董老接诊第一诊断为“肝郁脾虚-泄泻”患者的医案, 建立数据库, 借助中医传承辅助平台软件对数据库资料进行用药规律分析, 新方提取, 为提高、指导临床工作提供参考。

1 资料与方法

1.1 医案来源及筛选

以“董湘玉名老中医工作室”成员、2013级研究生周雅杰创建的基于HTML语言frontpage软件表达的“董湘玉教授接诊患者病案库”为主, 参照《中药新药临床研究指导原则》[3]筛选其中中医第一诊断符合肝郁脾虚—泄泻诊断标准的医案。共筛选122个医案, 162张处方。

1.2 医案的整理

将上述筛选患者的就诊信息及中药处方进行分类整理。为分析挖掘的要求, 方中所用中药名以现行21世纪规划教材为准, 对方中中药剂量统一为“g”, 并将“生姜3片”统定为“生姜6g”, “大枣4枚”统定为“大枣12g”。

1.3 录入及核对

将上述整理完毕的资料录入系统。为避免录入过程出现人为失误, 在所有数据输入完成后, 由双人分别单独对输入数据进行2次审核, 以确保录入信息数据的准确度, 为下一步进行数据挖掘提供可靠的保障。

1.4 数据分析

采用“中医传承辅助平台 (v2.5) ”软件, 由中国中医科学院中药研究所提供, 通过“数据分析”板块“方剂分析”功能进入“组方分析”, 分别进行“频次分析”“组方规律”“新方分析”。

2 结果

2.1 用药频次分析

对董湘玉教授治疗肝郁脾虚-泄泻的162张处方进行分析, 可得出包含89味中药在内从高到低排序的药物使用频次表, 其中使用频次超过40次的药物18味。见表1。

(次)

2.2 基于关联规则组方规律分析

根据方剂数量, 结合经验设置支持度个数为65, 即支持度为40% (是指药对或药物组合在所选处方中出现频次超过65次) 。设置置信度为0.9 (当A药物出现, B药物出现的概率为90%以上) 得出, 包含常用药物8味中药在内的常用组合36条。见表2。关联度>90%以上规则19条。见表3。

(次)

2.3 新方分析

2.3.1 基于改进的互信息法药物关联度分析

根据经验判读及设置不同参数提取数据预读, 设置相关度为8, 惩罚度为2, 进行聚类分析, 得到治疗泄泻的89味中药之间关联度, 将其中关联系数>0.03的12对药对列表。见表4。

2.3.2 基于复杂系统熵聚类的核心组合分析

以改进的互信息法分析的结果为基础, 按照相关度与惩罚度的约束, 基于复杂系统熵聚类, 聚出3~4味药核心组合共计30条。见表5。

2.3.3 基于无监督的熵层次聚类新处方的分析

在以上核心组合提取的基础上, 通过无监督熵层次聚类算法进行提取, 提取出14个核心组合, 见表6。以上14个组合进一步提取得出7个新方, 见表7。

3 讨论

泄泻是指排便次数增多, 每天大于3次, 粪便稀薄, 甚至泻出如水样的病证[3]。泄泻病因病机复杂, 一般认为与脾、胃、大小肠、肝、肾等脏器病变相关。脾虚是泄泻的根本, 脾胃已虚, 则肝木偏亢, 横逆犯脾, 则脾虚愈甚, 或者感于风邪, 内外相煽, 肝气亢盛, 或情志失调, 肝郁气滞均能导致肝气横逆克脾, 脾气虚弱, 运化失常清浊不分而致泄。肝郁脾虚-泄泻辨证要点为:胸胁胀闷, 郁怒或情绪紧张时易发作或加重, 泻必腹痛, 泻后痛减, 肠鸣, 苔白, 脉弦或缓。其中腹痛是本证最重要的特征。明·吴昆《医方考·泄泻门》云:“泻责之脾, 痛责之肝;肝责之实, 脾责之虚, 脾虚肝实, 故令痛泻。”痛的原因大抵为肝为刚脏, 若是肝气郁结, 必厉然而横犯他脏, 致脏腑之气失和而作痛。然泻后气机得以舒畅, 故腹痛缓解。肠鸣为该证的另一特征, 其原理亦如腹痛乃是肝木克脾, 则土气不能伸, 而肠乃鸣。其治疗以疏肝理脾、抑肝扶脾为原则。

本文通过中医传承辅助平台 (V2.5) 对董湘玉教授治疗肝郁脾虚—泄泻的162张处方进行分析、统计, 总结出常用药物有白芍、当归、甘草、白术、黄芩、茯苓、半夏、山药、太子参、葛根、防风、柴胡、藿香、薏苡仁、陈皮等, 其中白芍、当归、白术、山药、太子参、甘草等均为补益之品, 茯苓、半夏、藿香、薏苡仁、防风、陈皮具有除湿之效, 柴胡、佛手具有理气之功, 所用之药均符合中医以补益脾气治疗泄泻, 除湿兼以理气为主;基于关联规则得出的常用药物组合当归、白芍, 白芍、白术, 山药、白芍, 甘草、白芍, 白术、茯苓等药物为董老常用药物组合。董老认为, 肝郁脾虚之泄泻可细分为两个类型, 其一为肝气亢盛, 其二为肝气郁结, 因肝为刚脏, 其亢盛者不可再疏, 当柔之, 故常用当归、白芍养血之品合而柔之;其郁结者当疏之, 但不可太过, 常用香附、柴胡以疏之, 而脾虚常以山药、太子参、白术以补之, 脾虚湿甚常以茯苓、薏苡仁以淡渗。对于肠鸣者, 董老认为肠鸣与大便泡沫状均为风象, 故常防风祛风兼以祛湿。以改进的互信息法药物关联度分析结果为基础, 基于复杂系统熵聚类算法提取3~4味药物核心组合30条, 组合不同于以上常用药对的显性关系, 其主要是对低频次高相关的药物的隐形关系进行分析提取, 基于提取的结果进一步应用无监督熵层次的算法提取出新方备用组合, 聚类得出7个新方。由表7可知, 新方2黄芩清热燥湿、藿香、半夏化湿, 山药补益脾肾, 柴胡疏肝理气全方既能健脾祛湿, 又能疏肝理气;新方3白芍、当归养血柔肝, 薏苡仁、藿香、佩兰除湿止泻适宜于肝阴亏虚, 湿甚者之泄泻, 其提取新方为临床工作提供新的处方思路。但新方1及新方7中所包含药物可看出不是治疗脾胃方面常用药物, 故回顾录入患者原始信息, 发现某些患者虽第一诊断符合泄泻诊断, 但合并有外感、不寐症, 未进行排除, 虽桔梗、金银花、玄参、前胡、生地黄、知母、麦冬、酸枣仁、茯神不是高频次使用药物, 但系统识别出其潜在关系, 如桔梗、金银花、玄参、前胡为治疗风热外感常用药, 生地黄、知母、麦冬、酸枣仁、茯神为治疗肝血虚-不寐常用药, 提示我们系统算法具有其敏感性, 但亦有智能化不足的缺点, 故指导进行相关研究时对病历纳入及排除应严格监控。

参考文献

[1]周雅杰, 陈颜.董湘玉以五泻心汤治心下痞经验举隅析[J].时珍国医国药, 2016, 27 (3) :737-738.

[2]赵小红.柴胡疏肝散联合生物反馈治疗慢性浅表性胃炎的临床观察[J].贵阳中医学院学报, 2014, 36 (2) :88-89.

数据挖掘总结篇3

随着中国自主品牌轿车的飞速发展，进口车市场的日益繁荣，原先由合资品牌一统天下的市场格局已演变成目前“三足鼎立”。面对日趋残酷的竞争环境，各家厂商使出浑身解数希望获得消费者的垂青。除了加快新品的投产以满足挑剔的消费者，广告攻势同样成为主要砝码。一些大品牌长期维持较高的广告投放量，而大部分品牌在2007年大幅度增加了广告预算。（见表一）

总体来看，轿车行业广告市场呈现出稳定的增长态势，豪华车品牌近期广告活跃度升温，电台媒体广告市场成长加快，其在移动人群中的影响优势显示出巨大的广告投放潜力。

整体市场稳定增长，豪华车竞争加剧

2007年1-8月，轿车行业的广告花费较去年同期增长29.7%，增幅保持稳定。尽管其广告投放金额占整个“交通工具”大类的比重从2006年同期的68%下降到了66%，但占比仍超过三分之二，是该大类广告投放的中坚力量。（见图二）

大部分轿车品牌都增加了媒体广告投放费用。在同期投放增幅最高的TOP20品牌中，前10名的增长都超过十倍，其中海马、三菱戈蓝、日产、南京菲亚特派朗、华晨宝马等增幅惊人。2007年4月首次以自主品牌形象亮相上海车展的海马汽车，携新车发布的东风，投入广告巨资打造企业新形象，今年前8个月的广告花费高达7353万，相当于去年同期的50000倍！与一年多以前在中国轿车市场豪华车“阳春白雪”的情形相比，2007年似乎更适合被称为中国轿车的“豪华年”。除了消费者耳熟能详的奔驰、宝马、凯迪拉克、沃尔沃等部分车型陆续进入国产化或传出有望国产的消息外，雷克萨斯、英菲尼迪和讴歌三大日系顶级豪华车品牌也已经全部进入中国市场，再加上韩系豪华车的代表：起亚的欧菲莱斯和双龙汽车的新主席，2007年中国的豪华车市场可谓“明星云集，各领风骚”。（见图三）

就传统营销理念而言，北美市场才是豪华车竞争的主要舞台。但正是在今年，外国轿车企业不约而同地将中国作为北美以外的首个海外市场试水豪华车销售，将中国消费者摆在一个更为重要的位置，无疑显示出它们对于飞速成长中的中国市场的野心。

电台媒体成为轿车广告“新宠”

从2007年1-8月各媒体轿车广告花费的分配比例看，电视和报纸仍是其主要投放媒体（比例分别为46.1%和38.5%），但与去年同期相比，两大媒体的份额均出现一定程度下降。与此相反，电台和杂志媒体的广告花费份额出现增长，其中电台广告所占的花费比例从2006年的2.6%上升为4.3%，涨幅居各媒体之首。（见图四）

今年前8个月，选择电台媒体进行广告投放的轿车品牌数量较去年同期增加20%，广告投放频次增长84%，广告时长增长89%，媒体市场的成长极为迅速。轿车市场上几乎所有的活跃品牌都涉足了电台广告。在电台广告投放前10位品牌中，不乏凯迪拉克、荣威、别克林荫大道等知名中高档轿车品牌。（见图五）

国产自主品牌“荣威”，上市伊始便将电台作为其广告发布的重要平台。根据CTR媒介智讯的监测数据，荣威2007年1-8月的媒体广告花费接近2亿元人民币，其中电台广告投放约4200万，为全行业之首。

有迹象表明，随着人们经济实力的提升，目前国内的有车族已经开始考虑购买第二辆车或者将原有的车进行替换。由于拥有购车、用车经验，他们对于品牌、质量、售后服务有着更高的要求。而这正是那些品牌美誉度高、产品线丰富、服务口碑良好的成熟轿车品牌的强项。可能正是看到了这一新的商机，一些市场运作相对成熟的轿车品牌纷纷开始追加在电台的广告投放预算。（见图六）

在电台投放前20位轿车品牌中，有11个品牌同样位列全媒体广告投放前20位之列。其中，荣威、凯迪拉克SLS赛威、上海通用别克凯越的电台广告花费占各自广告投放总额的比例均超过了10%，一汽大众奥迪的比例也接近这一数字。从趋势看，广播媒体已经成为这些品牌保持媒体曝光率和维持品牌美誉度的重要媒体支持。

豪华车品牌纷纷抢滩中国市场，看中的就是目前国内轿车高端消费市场对于豪华车的“渴求”现状，更具远见的考虑，则是培养中国年轻一代消费群体对于自身品牌的认知和偏好，为未来更好的发展前景打下基础。

数据挖掘总结篇4

参加专业的it培训学校，实习两周以来，对于我这种酷爱计算机的人是多么好的体验机会。作为数学类专业的学生，如果一味的学习理论，不能去实践理论，那是多么悲哀呀。当得知有这样的机会时，很多同学都积极参加了。

就这样，大家带着新鲜好奇、实践理论的心情离开学校来到了普开数据实习了。

实习的他同学就敲过几百遍，才有现在的完美首页。听了经理的介绍，忽然觉得自己在学校敲的代码次数太少了，在接下来的日子了，我会每天都对前一天的项目代码多敲几遍。

一个行业你要喜欢它，也会喜欢它的文化，我很喜欢普开数据，在这里，环境优良，为我们每人准备了一台电脑，天气热，为我们安了空调，怕我们上火，哈哈，老师在上课期间怕影响我们上课静静的为我们倒水，严厉之中透漏着温柔，呵斥之中透漏着关怀。

在这里，我不是一个人而是家庭中的一员，和同学一起上下课，下了课一起打打闹闹的去吃饭，在业余时间还和老师聊聊天，或许这对于别人来说，这是人生中当学生时代最平常不过的事了，可对于我真的很珍贵，我很开心，我现在发现我也不是一个真的很喜欢独处的人，不能彻底的改变，但事实却在改变。

实习时间慢慢的在减少，而程序却相反——越来越难，越来越繁。因为一个小环节与大家拉开了距离，在一个庞大的项目中是不允许任何一处掉链子的。看到同学们早已“轻车熟路”操作自如了，而我却不知所措，立刻就有了压力。一天下来感受最深的就是那种巨大的差距。学校所学与实际应用中的脱节。

在普开数据为期两周的实习时间已悄然离去，刚来时的那种新鲜好奇早飞到了九霄云外，更多的是离开时的那种不舍和对自己及所学的反思。

通过实际项目的开发我有以下几点收获：

1.多向老师、同学虚心请教，也别说自己学的不怎么样，不然会大大减少自己的自信，从而与大家的差距越来越大。

2.编程以前一定要对整个项目有仔细的了解，最好能写好需求分析，这样在实际操作时就会更加调理，而且不会遗漏东西。

3.做任何项目都离不开团队合作。所以我们一定要注意团队合作意识，多和小组内的人交流。

4.在编程中一定要规范，绝对不可以随性。

文本挖掘算法总结篇5

1、基于概率统计的贝叶斯分类

2、ID3 决策树分类

3、基于粗糙集理论Rough Set的确定型知识挖掘

4、基于k-means聚类

5、无限细分的模糊聚类Fuzzy Clustering

6、SOM神经元网络聚类

7、基于Meaning的文本相似度计算

8、文本模糊聚类计算

9、文本k-means聚类

10、文本分类

11、关联模式发现

12、序列模式发现

13、PCA主成分分析

1、基于概率统计的贝叶斯分类

算法概述：贝叶斯公式是由英国数学家(Thomas Bayes 1702-1763)创造，用来描述两个条件概率之间的关系，比如 P(A|B)为当“B”事件发生时“A”事件发生的概率，按照乘法法则：

P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)，可导出贝叶斯公式：P(A|B)=P(B|A)*P(A)/P(B)贝叶斯分类基本思想为：设决策变量为D，D1，D2，Di，…，Dk为n条记录组成的样本空间S的一个划分，将n条记录划分成k个记录集合，如果以P(Di)表示事件Di发生的概率，且P(Di)> 0(i=1，2，…，k)。对于任一事件x，P(x)>0，则有：

贝叶斯分类的基本原理，就是利用贝叶斯条件概率公式，将事件X视为多个条件属性Cj各种取值的组合，当x事件发生时决策属性Di发生的条件概率。贝叶斯分类是一种概率型分类知识挖掘方法，不能百分之百地确定X事件发生时Di一定发生。

解决问题：预测所属分类的概率。通过已知n条样本集记录，计算各种条件属性组发生的概率，得出“贝叶斯分类”规则，给定一个未知“标签”记录，选择最大概率为其所属“分类”。

2、ID3 决策树分类

算法概述：ID3算法是J.Ross Quinlan在1975提出的分类算法，当时还没有“数据挖掘”的概念。该算法以信息论为基础，以信息熵和信息增益度来确定分枝生成决策树D-Tree。ID3算法以决策树D-Tree构建分类知识模型，D-Tree中最上面的节点为根节点Root，每个分支是一个新的决策节点，或者是树的叶子。每个决策节点代表一个问题或决策，每一个叶子节点代表一种可能的分类结果，沿决策树在每个节点都会遇到一个测试，对每个节点上问题的不同取值导致不同的分支，最后会到达一个叶子节点为确定所属分类。

解决问题：预测所属分类。通过已知样本集记录，生成一颗“分类知识树”，给定一个未知“标签”记录，通过“分类知识树”来确定其所属分类。

3、基于粗糙集理论Rough Set的确定型知识挖掘

算法概述：1982年波兰学者Z.Paw lak 提出了粗糙集理论Rough Sets Theory，它是一种刻划不完整性和不确定性的数学工具，能有效分析不精确、不一致（Inconsistent)、不完整（Incomplete)等各种不完备信息，利用数据进行分析和推理，从中发现隐含的知识，揭示潜在的规律。粗糙集理论是继概率论、模糊集、证据理论之后的又一个处理不确定性事物的数学工具。粗糙集理论是建立在分类机制的基础上的，它将分类理解为在特定空间上的等价关系，而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分，每一被划分的集合称为概念。其主要思想是利用已知的知识库，将不精确或不确定的知识用已知的知识库中的知识来（近似）刻画。解决问题：预测所属分类。粗糙集分类将样本空间S划分为上近似集（Upper approximation)、下近似集（Lower approximation）、边界集（Boundary region)，挖掘条件属性C与决策属性D集合所包含的不可分记录（不能再细分，该集合中的所有记录都属于某一决策属性Di的取值），这些记录形成不可辨识的关系（Indiscernibility relation)，由此确定分类规则： IF <条件属性C成立> THEN <决策属性Di发生>

即，如果满条件C，则其所属分类为Di。IF中的条件C可以是单一条件，也可以是组合and（并且）组合条件。

BIC给出的是“最小分类规则”。所谓“最小分类规则”是，最少的条件组合。例如一个人属于“高”、“富”、“帅”，条件为：“身高”、“财富”、“工资性收入”、“财产性收入”、“产业收入”、“脸型”、“眼睛大小”、“鼻梁形状”、“英俊”等条件来判别，通过“粗糙集”分类计算，得出最小分类规则可能是

“IF 财富>=XXX1 and 身高>=185cm and 相貌=英俊” 其他条件可以忽略不计，这就是“最小分类规则”。

“粗糙集”分类规则为“百分之百确定型”分类规则，这是对样本集的统计结果，如果出现非“样本集”中出现过的条件变量属性，将无法得出“粗糙集”，可转而使用概率型“贝叶斯分类”进行计算。

4、基于k-means聚类

算法概述：给定一个包括n条记录、每条记录有m个属性的样本集，再给出分类数k，要求将样本集中的记录，按记录间的相似性大小（或距离远近），将相似性最大（或距离最近）的记录划分到k个类中，相同分类中记录间的距离要尽可能地小，而分类之间的距离要尽可能地大。BIC改进了常规的k-means聚类算法，在聚类过程中，同时计算分类质量（类内均差、类间均距和），并求解最优聚类max{ }。

解决问题：将n条记录聚成k个分类。对n个样本集记录，指定分类个数k，为k个分类指定初始迭代记录为k个分类中心，通过计算其他记录对k个分类中心的距离，对不断变换分类、变换类中心，收敛都当分类不再变化时，计算结束。由此，将n个样本集记录分配到k个分类中，得到k个分类中心指标。

5、无限细分的模糊聚类Fuzzy Clustering 算法概述：在实际解决聚类问题时，很多数事物是“模糊”的，其特征属性A无法确进行量化，如：人的相貌、人与人之间的关系、人的性格、购买商品的意愿等，这就需要用模糊数学来进行相似性计算。模糊数学是伴随着上世纪五六十年代兴起的控制论、信息论、系统论（俗称“老三论”）而形成的一种决策方法，是美国加利福尼亚大学伯克利分校Lotfi Zadeh教授于1965年创立的。模糊聚类基本计算步骤为：

（1）将样本集中的n条记录变换成n x n的模糊相似矩阵；

（2）通过传递包卷积计算将模糊相似矩阵变换成等价相似矩阵；（3）最后通过λ截矩阵将n条记录分成1-n个分类。

K-means聚类需事先确定聚类数k，而模糊聚类Fuzzy Clustering无需事先确定聚类数k，可以从最小的k=1（所有学习集中的n条记录为1个分类），到k=n（所有学习集中的n条记录各为1个分类）。

解决问题：将n条记录聚成1-n个分类。模糊聚类Fuzzy Clustering算法完全基于数据自然状况进行聚类，可产生聚类的解集合 max{

(k=1,2，，,n)，因此，可以在解集合中求解最优聚类 }，这对观察分析样本集的数据性态非常有用，可供观察不同情况下的“聚类”状况。

6、SOM神经元网络聚类

算法概述：人类对事物的认知是一个不断积累的过程，通过对事物的观察，不断地认识和修正因果关系，最后逐渐稳定为认知规则。医学证明，人眼的视网膜、脊髓和海马中存一种侧抑制现象，即，当一个神经细胞兴奋后，会对其周围的神经细胞产生抑制作用。这种侧抑制使神经细胞之间呈现出竞争，开始时可能多个细胞同时兴奋，但一个兴奋程度最强的神经细胞对周围神经细胞的抑制作用也最强，其结果使其周围神经细胞兴奋程度减弱，从而该神经细胞是这次竞争的“胜者”，其它神经细胞在竞争中失败。1981年芬兰学者kohonen提出一个称为自组织特征映射（Self Organization Feature Map-SOM或SOFM）网络，前述大脑神经细胞兴奋规律等，在该网络中都得到了反应。在竞争层神经元之间的连线，它们是模拟生物神经网络层内神经元相互抑制现象的权值，这类抑制性权值满足一定的分布关系，如距离近的抑制强，距离远的抑制弱。

通过上述可知，SOM聚类算法设计的核心思想是体现神经元在认知过程中的3个特性：（1）根据样本比较，逐步积累、不断修正、渐近稳定特性？（2）神经元之间的侧抑由近到远、逐步衰弱制特性？（3）神经元兴奋区域随认知次数逐步缩小范围特性？

BIC采用欧氏距离作为输入模式Xi与各输出神经元Wj之间的相似度，选择具有最小距离的神经元为兴奋神经元；采用（1-ti/tm）作为学习衰减函数，其中ti 为当前学习次数（第几次样本训练），tm 为总的学习数，以此来体现上述特性“1”；采用（1-ti/T）、C/Wij作为神经元侧抑制函数，其中C为设定的常数、Wij为被选中的神经元与其他神经元最远距离，来体现上述特性“2”、“3”。

解决问题：将n条记录按m个输出神经元聚成m个分类。模仿人类的学习方法，对事物的认识是一个由浅入深、逐步学习、修正的过程，将对各种要素组态的认识逐步稳定到认知领域，由此进行“聚类”。

7、基于Meaning的文本相似度计算算法概述：给出一组n个文档D{具有代表性的词组

}，BIC为每个文档计算出一组最，同时，计算出

相互间内容接近度及接近序列。

BIC的Meaning挖掘与自动搜索不同于现有Baidu、Google人工输入关键词的搜索方式，现有搜索引擎不考虑语义和语境，只考虑词W与文档D的包含关系

和词在文档内的频数TF，因此，关键词的搜索与文档内容无关。例如：“姚明”是中国篮球的骄傲，但“姚明”还投身于公益事业，如果在搜索引擎中输入“姚明”，不见得搜索的文档内容只包含与篮球相关的内容，还可能包括公益及其他包含“姚明”的文档，可见，关键词搜索具有不确定性。如果在搜索引擎输入一组词 {“姚明”、“得分”、“篮板”}，搜出文档是篮球比赛内容的概率更大，显然，形成的交集缩小了搜索范围，但组词 {“姚明”、“得分”、“篮板”}是经过人思考给出的。BIC通过计算得出文档代表词组明”、“得分”、“篮板”}，同时计算词，相当于人工输入 {“姚

在句子中语序关系的发生概率与马尔科夫链，因此，能够更好地确定搜索词的语义和语境，通过对文档间的相关性（接近度）进行聚类计算，可按Meaning“接近度”进行自动搜索而无需人工干预，并随文档内容的变化而自动跟踪Meaning变化，使搜索更加准确、更加自动化，让搜索“随用户的心而动”。

BIC可用于基于Meaning计算的搜索、舆情分析、特定情报分析、垂直搜索和相似内容推荐等文本挖掘。

解决问题：计算两个文本的相似度。

8、文本模糊聚类计算

算法概述：基于模糊聚类算法，BIC首先计算将n个文本组成相似矩阵档对第j个文本文档的相似度），然后将相似矩阵似矩阵

变成模糊相似矩阵

（第i个文本文，通过求模糊相的等价矩阵和截矩阵，将n个文本文档分成1-n个分类，同时，按相同分类中的}，不同文本分类间具有最大差异Max{

}，来求解文本具有最接近的内容相似度Min{ 按文本内容进行最优分类方案。

解决问题：在不确定将文本划分成几类的情况下，将n个文本聚成1-n个分类，以此来观察“聚类”效果。

9、文本k-means聚类

算法概述：基于k-means聚类，在BIC平台上，用户上传或输入n个文本，确定希望分类数量k和k个分类样本，BIC将以k个样本作为初始迭代点进行k-means聚类计算，将n个文本分成k个分类。

解决问题：在已经确定了k个分类的情况下，将文本划分到k个“分类”中。

10、文本分类

算法概述：通过“文本模糊聚类”或“文本k-means”聚类，BIC不仅将n个文本按内容相似度进行分类，同时挖掘出各个分类的“分类代表词组”，以后，用户任意给出一个文本，BIC将根据其对各个“分类代表词组”的相似度，选择最相似的分类MaxSim{i}，将该待分类文档分配到MaxSim{i}类。

解决问题：在已经完成文本聚类的情况下，将不确定的文本划分到“分类”中。

11、关联模式发现

算法概述：关联分析的目的是挖掘隐藏的关联(Association)模型，最著名的关联模式应用是挖掘“购物篮”问题，是从发现购买行中，发现商品之间的关联关系。给定一组交易记录：

每笔交易ID包含m个商品{BIC可计算得出任意两商品

}，n条记录组成二维表，构成矩阵，组合的Confidence(A->B)=P(A | B)置信度和支持度Support(A->B)=P(A U B)，可用于分析商品之间的关联性“购物篮”问题。

BIC的关联模式发现是一个快速、交互式Apriore计算过程：从发现最基本的2个Item关联高频项集开始，计算支持度Support(A->B)=P(A U B)和置信度Confidence(A->B)=P(A | B)，逐步计算和发现2、3、4…Item关联频繁项集。因为：（1）任何求解高频关联事务T中的项数Item必然大于等于2，如果只有1个Item不存在关联；

（2）任何交易记录T中无论有多少个Item组合，如果存在大于2个Item的高频组合，都必然存在2关联的高频真子集。

如：交易记录T1={Item1，Item2}，交易记录T2={Item1，Item3，Item4，Item2}，则T1为T2的非空真子集T1⊆T2。

所以，如果存在3关联的高频Item组合，必然存在2关联的高频组合；如果存在4关联的Item高频组合，必然存在3关联高频组合…。BIC就是通过最基本的2关联高频项集发现开始，逐步缩小记录集合，逐步发现所有任意数量Item组合的高频项集。因此，BIC的关联计算是一个快速、交互式计算的Apriore算法。

解决问题：从样本集中发现有较强“置信度”的关联规则。

12、序列模式发现

算法概述：算法原理同“关联分析”，但统计点在于事物（或商品购买）发生的先后序列。如商品购买行为预测：汽车改装爱好者，购买某种品牌增压器的人，很多人后来还购买了活塞环、又购买了某品牌机油…，通过序列分析，发现其购买序列、预测下一步购买行为；如疾病诊断：患有某种疾病的人，先出现A症状、后出现B症状、又出现C症状…，通过出现症状的序列分析，发现疾病发生、发展的序列模式，对疾病进行诊断；

如Web访问行为模式发现：每个IP访问网站都是一个Web会话Session，每个Session由一系列的URL序列组成，通过Session计统计得到高频URL序列，预测用户的访问行为；不限于上述例子，还包括生物进化序列模式、DNA序列、地震、火灾、战争冲突爆发序列模式预测等，序列规律是大量存在的，只要有足够的统计数据，都可以通过BIC发现最率并进行预测。

序列模式发现与关联模式发现在算法上很相似，但序列模式强调Item的先后顺序，而关联模式发现不关心顺序，只看是否在一个事物T中2个Item（或多个）是否同时出现。

BIC的序列模式发现是一个快速、交互式Apriore计算过程：从发现2个Item序列高频序列开始，计置信度Confidence(A->B)=P(A | B)，逐步计算和发现2、3、4…Item序列频繁序列。因为：（1）任何求解高频序列事务T中的项数Item必然大于等于2，如果只有1个Item不存在关联；

（2）任何事务记录T中无论有多少个Item序列组合，如果存在大于2个Item的高频序列组合，都必然存在2序列的高频序列真子集。

如：事务序列记录T1={Item1，Item2}，事务序列记录T2={Item1，Item3，Item4，Item2}，则T1为T2的非空真子集T1⊆T2。

所以，如果存在3个Item序列的高频Item组合，必然存在2序列的高频序列组合，如果存在4个Item的高频序列组合，必然存在3高频序列组合…。BIC就是通过最基本的2序列高频序列发现开始，逐步缩小记录集合，逐步发现所有任意数量Item组合的高频序列组合。因此，BIC的序列计算是一个*快速、交互式计算的Apriore算法。

解决问题：序列模式发现的目的是挖掘事务发生、发展的序列(Sequencing)模式，从样本集发现有较强“置信度”的序列规则。

13、PCA主成分分析

算法概述：假设一个事物由多种因素构成，设有n个样本，每个样本共有m个属性（指标、构成要素），构成一个n×m阶的成分数据矩阵，PCA算法的目的是：（1）降低维度

当矩阵X的维数m较大时，在m维空间中考察问题比较麻烦，需要降低维度，在不影响对事物评价的基础上，选择较少的几个主要指标P（p < m）来代替原来较多的变量指标m。（2）消除变量间的相关性

（3）分析指标体系中各个指标的对事物的区分性。衡量一个事物好坏由多个指标所决定，但指标对事物的区分性有强弱之分，通过PCA计算，可以分析哪些指标有更好的区分性，哪些指标的区分性较弱。PCA解决算法原理： PCA算法的核心是，将非实对称矩阵X变成实对称矩阵A，求矩阵A的特征值和特征向量，特征值为P个指标，特征向量为P个指标对原来m个指标的荷载参数。BIC采用Jacobi（雅可比）方法来求特征值和特征向量。

Jacobi方法的基本理论是，对于一实对称矩阵A，必有一正交矩阵U，使得可以证明，如果

，则矩阵D为矩阵A的相似矩阵，相似矩阵具有相同的特征

，变换过程中，让值和特征向量。Jacobi方法通过平一系列的面旋转变换来求非对角线上的元素逐步变小，对角线上的元素逐渐变大，最后将矩阵D中非对角线上的元素变成0（或趋近于0），对角线上的元素 li 是矩阵 A 的特征值，正交阵 U 的第 j 列是 A 的属于 li 的特征向量，以此求解矩阵A的特征值和特征向量。解决问题：

数据库复习总结篇6

数据库系统概论

１．试述数据、数据库、数据库系统、数据库管理系统的概念。

数据：描述事物的符号记录称为数据。数据的种类有文字、图形、图象、声音、正文等等。数据与其语义是不可分的。

数据库：数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和储存，具有较小的冗余度、较高的数据独立性和易扩展性，并可为各种用户共享。

数据库系统：数据库系统（DBS）是指在计算机系统中引入数据库后的系统构成。数据库系统由数据库、数据库管理系统（及其开发工具）、应用系统、数据库管理员构成。

数据库管理系统：数据库管理系统(DBMS)是位于用户与操作系统之间的一层数据管理软件。用于科学地组织和存储数据、高效地获取和维护数据。DBMS主要功能包括数据定义功能、数据操纵功能、数据库的运行管理功能、数据库的建立和维护功能。

2．什么是数据独立性？数据独立性又分为哪两个层次？为什么需要数据独立性？

数据独立性是用来描述数据与应用程序之间的依赖程度，包括数据的物理独立性和数据的逻辑独立性，依赖程度越低则独立性越高

物理独立性是指用户的应用程序与存储在磁盘上的数据库的数据时相互独立的。逻辑独立性是指用户的应用程序与数据库的逻辑结构是相互独立的。

作用:数据在磁盘上怎样存储由DBMS管理，用户程序不需要了解，应用程序要处理的只是数据的逻辑结构，这样当数据的物理存储改变了，应用程序不用改变。数据独立性是通过数据库管理系统的两层映像功能来实现 3．什么是数据模型？数据模型的基本要素有哪些？为什么需要数据模型？

数据模型是描述数据语义、数据与数据之间联系（数据结构）、数据操作，以及一致性约束的概念和工具的集合数据模型的基本要素：

①数据结构：是所研究的对象类型的集合，是对系统的静态特性的描述。

②数据操作：是指对数据库中各种对象（型）的实例（值）允许进行的操作的集合，包括操作及有关的操作规则，是对系统动态特性的描述。

③数据的约束条件：是完整性规则的集合，完整性规则是给定的数据模型中数据及其联系所具有的制约和依存规则，用以限定符合数据模型的数据库状态以及状态的变化，以保证数据的正确、有效、相容。

作用：一般地讲，数据模型是严格定义的概念的集合。这些概念精确地描述系统的静态特性、动态特性和完整性约束条件。

4．为什么数据模型要分为概念模型，逻辑模型和物理模型三类？试分别解释概念模型、逻辑模型和物理模型

为什么：数据模型应满足3方面的要求：一是能比较真实的模拟现实世界；二是容易被人所理解；三是便于在计算机上实现。一种数据模型要很好地同时满足这3个方面的要求是很困难的，因此，在数据库管理系统中这对不同的使用对象和应用目的，采用不同的数据模型。

概念模型：指概念层次的数据模型，也称为信息模型，它按用户的观点或认识对现实世界的数据和信息进行建模，主要用于数据库设计。常用的概念模型有实体联系模型（E-R模型）和面向对象OO模型

逻辑模型；用来描述数据库数据的整体逻辑结构。传统的逻辑数据模型有层次模型、网状模型和关系模型，非传统的逻辑数据模型有面向对象模型、XML模型等

物理模型用来描述数据的物理存储结构和存取方法 5．关系模型中的主要概念有哪些，试分别解释之。

关系模型由一组关系组成，每个关系的数据结构是一张规范化的二维表。关系模型中的常用术语有：关系、元组、属性、码、域、分量和关系模式等。关系模型要求关系必须是规范化的，即关系的每一个分量必须是一个不可分的数据项。关系数据模型的操作主要包括查询、插入，删除和修改（更新数据）。关系数据模型的完整性约束条件包括实体完整性、参照完整性和用户自定义完整性

6．试解释数据库的三级模式结构和两层映像。为什么数据库管理系统要提供数据库的三级模式结构和两层映像？

数据库管理系统的数据抽象一般包括物理层抽象、逻辑层抽象和视图层抽象三个级别。对应于数据抽象的三个级别，数据库管理系统一般也提供观察数据库的三个不同角度，以方便不同的而用户使用数据库的需要，这就是数据库的三级模式结构；内模式、模式和外模式

为了能够在系统内部实现三个抽象层次的数据之间的联系和转换，数据库管理系统在数据库的三级模式之间提供了两层映像：外模式/模式映像、模式/内模式映像。正是这两层映像保证了数据库中的数据能够具有较高的逻辑独立性和物理独立性 7．解释模式、外模式、内模式、DDL、DML等概念

内模式也称存储模式，对应于物理层数据抽象，它是数据的物理结构和存储方式的描述，是数据在数据库内部的表示方式

模式也称为逻辑模式，赌赢与逻辑层数据抽象，是数据库中全体数据的逻辑结构和特征的描述，是所有用户的公共数据视图

外模式也成子模式或用户模式，对应于视图层数据抽象，它是数据库用户(包括应用程序员和最终用户)能够看见和使用的局部数据的逻辑结构和特征的描述，是数据库用户的数据视图，是与莫以具体运用有关的数据的逻辑表示

数据库模式定义语言DDL(Data Definition Language)，是用于描述数据库中要存储的现实世界实体的语言。一个数据库模式包含该数据库中所有实体的描述定义。这些定义包括结构定义、操作方法定义等。

数据操纵语言DML，命令使用户能够查询数据库以及操作已有数据库中的数据的计算机语言。具体是指是SELECT查询、UPDATE更新、INSERT插入、DELETE删除。

第二章关系模型与关系代数

1.名词解释

域：一组具有相同数据类型的值的集合

笛卡尔积：两个分别为N目和m目的关系R和S的笛卡尔积是一个n+m目元组的集合超码：属性集A能唯一标识关系r中的一个元组，则称A为关系R的一个超码候选码：对于关系r中一个或多个属性的集合A，若属性集A中的任意真子集都不能成为关系r的超码，则、、、、、主码：在实体集中区分不同实体的候选码。

外码：用于建立和加强两个表数据之间的关系而引用另一个关系的主码。

关系模式：是型的概念，它定义了元组集合的结构，即定义了一个元组由哪些属性构成关系数据库：在一个给定的应用领域中，所有实体以及实体之间的联系所对应的关系的集合空值：是所有可能的域的一个取值，表明值未知或不存在。

2.关系模式的完整性：实体完整性、参照完整性和用户自定义完整性。实体完整性：若属性A是关系r中的主码，则A不能取空值

参照完整性：若属性F是关系r的外码，它与关系s的主码Ks相对应，则对于关系r中的每一个元组在属性F上的取值，要么为空值，要么等于关系s中的某个元组的值 3.自然连接和等值连接的区别于联系

等值连接：是从两个关系的笛卡尔积中选取连接属性满足相等条件的所有元组。

自然连接：是一种特殊的等值连接，它要求两个参与连接的关系具有公共的属性集，并且在结果中把重复的属性列去掉

第四章

数据库建模（实体-联系模型）

1.请简要解释下列术语：实体、实体集、属性、域、联系、联系集、角色、映射基数、超码、候选码、主码、弱实体、类层次、聚合

实体是客观世界中可区别于其他事物的“事物”或“对象”。实体既可以是有形的，实在的事物，也可以是抽象的、概念上存在的事物。相同类型的实体组成的集合称为实体集

实体是通过一组属性来描述的，其属性是实体集中给每个实体都具有的性质。每个属性所允许的取值范围或集合称为该属性的域

联系两个或两个以上实体之间的联系。相同类型联系组成的集合称为联系集。联系也可拥有自身的描述性属性

由于参与一个联系的实体集通常是不同的，因而角色是隐含的并且常常不需声明。但是，当参与联系的实体来自相同的实体集，则需要声明角色

映射基数指一实体集中的一个实体通过一个联系集能同时与另一个实体集相联系的实体数目。映射基数可决定联系集的主码属性，甚至可能影响到一个事物是作为实体还是联系的选择

超码是指能够唯一的标识实体集或联系集中的一个实体或一个联系的一个或多个属性的集合。当一个超码的任意真子集都不能成为超码时，称该最小超码为候选码。候选码和超码是实体集客观存在的特性，而主码是被数据库设计者主观选中，用来区分同一实体集中不同实体的候选码

当一个实体集的所有属性都不足以形成主码，就称该实体集为弱实体集。相反，其属性可以形成主码的实体集称为强实体集。弱实体集所以来的强实体集称为标识实体集。标识实体集和弱实体集之间必须是一对多关系，并且弱实体集中的实体在联系集中是全部参与的

E-R模型使用继承和ISA联系来描述实体集之间概念上的层次关系。当欲建立联系间的联系时，可使用聚合实现

聚合是一种抽象，它将一个联系集及其相关联的实体集抽象为一高层实体集对待，然后建立该高层实体集与其他实体集之间的联系集 2.综合题：需求分析----E-R图---关系模式

第七章

数据库存储结构

1.数据库系统的存储访问方式是什么？为什么要这样? 一个数据库映射为多个不同的文件，这些文件由底层的操作系统来维护，永久地存放在磁盘上，并且具有三级存储介质上的备份。每个文件分成定长的存储单元，称为块。块是存储分配和数据传输的基本单位

当数据库系统中的程序需要磁盘上的块时，它向缓冲区管理器发出请求（即调用）。如果这个块已经在缓冲区中，缓冲区管理器将这个块在主存储器中的地址返回给请求者。如果这个块不再缓冲区中，缓冲区管理器首先在缓冲区中为这个块分配空间，如果需要的话会把其他块移出主存储器为这个新块腾出空间，移出的块仅当它在最近一次写回磁盘后修改过才需要写回磁盘；然后，换红区管理器把这个块从磁盘读入缓冲区，并将这个块在主存储器中的地址返回给请求者。缓冲区管理器的内部动作对发出磁盘块请求的程序是透明的。原因：数据库系统的一个主要目标就是减少磁盘和主存储器之间传输的块数。减少磁盘访问次数的一种方法是在主存储器中保留尽可能多的块，目的是最大化要访问的块已经在主存储器中的几率，这样就不再需要访问磁盘了

2.什么是聚集文件组织、什么是多表聚集文件组织？为什么需要多表聚集文件组织?为什么要慎用多表聚集文件组织？

聚集文件组织：很多关系数据库系统将各个关系存储在一个个独立的文件中，不同关系中有联系的数据是通过关系间的联接操作得到的，但是当数据的数量比较大时，这种方法速度会很慢。而在聚集文件组织方式中，一个文件可以存储多个关系的记录，不同关系中有联系的记录存储在一起可以提高查找速度。

多表聚集文件组织：在一个块中存储两个或多个关系的相关记录，以加速特定连接的处理。但是它将会导致其他类型查询的处理变慢

3.为什么需要索引？什么是顺序索引和散列索引？什么是主索引和辅助索引？稠密索引和稀疏索引有什么不同？什么是索引顺序文件？

许多查询只涉及到文件中的少量记录，索引能使系统直接定位这些满足查询条件的记录。DBMS首先会查找索引，找到对应记录所在的位置（即所在磁盘的块地址），然后读取该磁盘块，得到所需的记录

顺序索引是基于搜索码的值的顺序排列，用于支持快速地对文件中的记录进行顺序或随机的访问。散列索引时通过搜索码值的散列函数的值将所有记录平均、随机地分布到若干个散列桶中，用于支持快速地对文件中的记录进行随机地访问

如果索引文件中的记录按照某个搜索码值指定的顺序物理存储，那么该搜索码对应的索引就称为主索引，也叫聚集索引。与此相反，搜索码值顺序与索引文件中记录的物理顺序不同的那些索引称为辅助索引或非聚集索引

如果索引文件中的每一个不同的搜索码值，在索引中都有一个索引记录（或称为索引项），则该索引称为稠密索引。如果只对索引文件中的部分搜索码值，在索引中存在一个索引记录，则该索引称为稀疏索引。每一个索引项包含搜索码值和指向具有该搜索码值的第一个数据记录的指针。利用稠密索引通常可以比稀疏索引能够更快地定位一条记录的位置，但是稀疏索引占用空间更小，插入、删除和更新的开销也会更小

建立了主索引的索引文件称为索引顺序文件：稠密索引、稀疏索引 4.B+树索引的根结点，非叶结点和叶结点都具有相同的数据结构，那它们之间有什么不同？非叶结点的结构与叶结点结构相同，只不过非叶结点中的所有指针都是指向B+树种下一层节点的指针，根结点与其他非叶结点不同，它包含的指针书可以小于n/2，但至少包含两个指针

5.散列文件组织和散列索引有什么不同？在散列文件组织中，通过计算一条记录的搜索码值的散列函数值，可以直接获得包含该记录的磁盘块（桶）的地址。在散列索引组织中，把搜索码值以及与它们先关联的记录指针组织成一个散列文件结构

6.在考虑用索引时，是选择B+树索引还是散列索引？为什么？散列其实就是一种不通过值的比较，而通过值的含义来确定存储位置的方法，它是为有效地实现等值查询而设计的。不幸的是，基于散列技术不支持范围检索。而基于B+树索引技术能有效的支持范围检索，并且它的等值检索效果也很好。但是，散列技术在等值连接中是很有用的，尤其是在索引嵌套循环连接方法中，基于散列的索引和基于B+树的所以在代价上会有很大差别

7.数据库物理设计的主要内容是什么？数据库物理设计的目标是什么？

数据库物理设计的目标是：提高数据库性能，以满足应用的性能需求；有效利用存储空间；在性能和代价之间做出最优平衡数据库物理设计的内容包括：确定数据库性能，以满足应用的性能需求；有效利用存储空间；在性能和代价之间做出最优平衡

第八章查询处理

1.查询处理的过程分为哪几个步骤

语法分析与翻译查询优化查询执行 2.查询代价如何度量？为什么？

查询处理的代价可以通过该查询对各种资源的使用情况进行度量，主要包括磁盘存取时间和执行一个查询所用CPU时间以及在并行/分布式数据库系统中的通信开销等 3.如何实现选择运算？

用于选择运算的搜索方法不用索引的搜索算法----文件扫描使用索引的搜索算法---索引扫描

4.题见书（1）最坏情况下，缓冲区只能容纳每个关系的一个数据块，因而算法的代价为：EJ = nr * bs + br。这里，nr = 20000，bs =1500，br=800，所以所需要的块存取数为20000*1500+800，约为30M个块存取。最好情况下，两个关系都能放到内存里，因而算法代价为：EJ = bs + br。大约需要2.3K个块存取。

5.为什么需要查询优化？什么是查询执行计划？查询优化器的输入和输出分别是什么？处理一个给定的查询，尤其是复杂的查询，通常会有许多种策略。查询优化就是从这多种策略中找出最有效的查询执行计划的处理过程。

给定一个关系代数表达式，查询优化器的任务就是产生一个查询执行计划，该计划能获得与原关系代数表达式相同的结果，并且执行代价是接近最小的

6.题见书：由于是计算三个关系的自然连接，且连接属性中的C、E是各自关系的主码，因此r1r2r3的大小最多为1000个元组。有效地计算这个连接的策略就是让连接结果较小的连接运算先执行，即：（r1r2）r3。原因就是：由于A是r1的主码，C是连接属性，因此r1r2的最大结果为1000个元组；而C是r2的主码，E是连接属性，因此r2r3的最大结果为1500个元组。所以，要让（r1r2）先做连接运算，以减少结果集的大小。7.画树

其它章节零散习题

列级约束和元组级约束的区别在哪里？

如果在定义属性的同时定义约束条件，则为列级约束；如果单独定义约束条件，则为元组级约束

什么是事物的ACID特性？

①原子性：事务的所有操作要么全部都被执行，要么都不被执行②一致性；即一个单独执行的事务应保证其执行结果的一致性，即总是将数据库从一个一致性状态转化到另一个一致性状态③隔离性：即当多个事务并发执行时，一个事务的执行不能影响另一个事务，即并发执行的各个事务不能相互干扰④持久性：即一个事务成功提交后，它对数据库的改变必须是永久的，即使随后系统出现故障也不会受到影响当前主流的数据库访问技术是ADO Web服务器的职责是什么？数据库服务器的职责又是什么？ Web服务器负责监听客户的请求，一旦收到客户请求，数据库服务器三级数据库考点分析之计算机基础知识

1.1计算机系统组成与应用领域

考点1计算机系统组成

一个完整的计算机系统，包括硬件和软件两个部分。

硬件系统是指组成一台计算机的各种物理装置，它是计算机的物质基础，由各种器件组成，如主板、CPU、硬盘、显示器、内存和线路等。

软件系统是运行在计算机硬件设备上的各种程序及相关资料的总称。

以存储程序原理为基础的冯·诺依曼结构的计算机，一般由五大功能部件组成，它们是运算器、控制、存储器、输人设备以及输出设备。

下面分别对各种设备进行介绍。

1运算器

运算器是用于对数据进行加工的部件，它可以对数据进行算术运算和逻辑运算。算术运算包括加、减、乘、除、求余及复合运算。逻辑运算包括一般的逻辑判断和逻辑比较。

2控制器

控制器是计算机的控制部件。它控制计算机各部分自动协调地工作，用于对程序的指令进行解释和执行，协调输人、输出设备，以实现数据输人、运算和输出等操作。

3存储器

存储器的主要功能是存放程序和数据，是计算机的记忆存储装置。它分为内部存储器和外部存储器。

4输入设备

输人设备是计算机从外部接收、获取信息的装置。其功能是将数据、程序及其他信息，从人们所熟知的形式转换成计算机能识别的信息形式，并输人到计算机内部。

常见输人设备有鼠标、键盘、扫描仪、纸带输人机、模／数转换器（A/D转换器）等

5输出设备

输出设备的主要功能是将计算机处理过的二进制形式的信息转换成人们所需要的形式或其他设备接受并可以识别的信息形式。常见的输出设备有显示器、打印机、声音合成输出、绘图仪和数／模转换器（D/A转换器）等

一般把运算器和控制器合称为中央处理器（Central Processor Unit，简称CPU），中央处理器与内存储器统称为主机．输人设备、输出设备和外存储器合称为外部设备，外部设备通过接口与主机相连。考点2计算机的应用领域

l 科学和工程计算

主要是用数值方法对一些数学问题的求解。计算机不仅可以提高计算的速度，还可以使一些人工不能解决的数学问题得到解决。在科学实验和工程设计中，经常会遇到一些数学方程和函数问题，这些问题人们不能从理论上得出其准确解，但利用计算机可以得到它们的近似解。这种应用称为科学和工程计算，其特点是计算量大，而逻辑关系相对简单。

2数据和信息处理

数据处理是指对数据的收集、存储、加工、分析和传送的一系列过程。

计算机的一个非常重要的应用领域就是对数据和信息的处理。数据的含义是相当广泛的，包括声、像、文字和图表等，它们都可以用计算机来进行处理。

3过程控制

过程控制是自动化技术的重要技术内容和手段．指计算机对所采集到的数据按一定的方法经过计算，然后输出到指定的执行设备中去控制生产的过程。

4辅助设计

计算机辅助设计（Computer Aided Design，简称CAD)是用计算机来帮助设计人员进行产品、工程设计的重要技术手段，可以节省人力和物力，且速度快，质量高，能有效缩短产品的设计周期。

这里有必要提一下这几个名词：计算机辅助制造（Computer Aided Manufacturing,简称CAM)、计算机辅助测试（Computer Aided Testing，简称CAT）和计算机辅助教学（Computer Aided Instruction，简称CAI）。

5人工智能

人们把用计算机模拟人脑思维的过程称为人工智能，并利用计算机程序来实现这些过程。

1.2计算机软件考点3计算机语言

计算机语言是面向计算机的人工语言，它是进行程序设计的工具，又称为程序设计语言。现有的程序设计语言一般可分为机器语言、汇编语言及高级语言，下面分别加以介绍。

1机器语言

机器语言是最初级的计算机语言，它依赖于硬件，是由0，I组成的二进制编码形式的指令集合。不易被人识别，但可以被计算机直接执行。

2汇编语言

汇编语言指使用助记符号和地址符号来表示指令的计算机语言，也称之为符号语言。每条指令有明显的标识，易于理解和记忆。

用汇编语言编写的程序，直观且易理解，这是汇编语言的优点。但是汇编语言仍是面向机器的，编程工作量大，程序可移植性差。计算机不能识别和直接运行汇编语言，必须翻译成机器语言程序后才能识别并运行。这种翻译程序即称为汇编程序，其关系如图l一1所示。

图1－1汇编过程

高级语言

高级语言是一类面向问题的程序设计语言，且独立于计算机的硬件，对具体的算法进行描述，所以又称为算法语言，它的特点介绍如下：

（I)脱离具体的计算机硬件。

（2）通用性及可移植性好。

下面介绍几种常用的高级语言。

（I）BASIC语言：多用于教学及小型应用程序的开发工作。

（2）FORTRAN语言：多用于科学及工程计算程序的开发工作。

（3）PASCAL语言：多用于专业教学及应用程序的开发工作。

(4）C语言：多用于系统程序的开发。

（5）C十＋语言：多用于面向对象程序的开发。

（6）COBOL语言：多用于商业、交通及银行等应用程序的开发。

（7)PROLOG语言：多用于人工智能程序的开发。

（8）FoxPro语言：多用于专业教学及应用程序的开发。

高级语言程序一般又称为源程序，不能直接在计算机上运行，需要翻译成机器语言程序（又称为目标程序）才可执行。这种翻译是由编译程序来完成的，翻译过程如图1-2所示。

图1一2编译过程

考点4系统软件

系统软件指负责管理、监控和维护计算机资源（含硬件资源和软件资源）的程序。

1操作系统

操作系统（Operating System,简称OS）是系统软件的核心，也是用户同计算机之间的接口，是一组程序模块的集合：它们有效地控制和管理计算机系统中的硬件和软件资源；合理地组织计算机工作流程，以改善系统的性能；提供一个易于使用、功能强大的工作环境，从而在计算机和其他用户之间起到接口的作用。

2语言处理程序

语言处理程序就是将各种语言编写的源程序翻译成机器语言表示的目标程序。按处理方式的不同可解释型程序与编译型程序两大类。

3数据库管理系统

数据库管理系统(DataBase Management System,简称DBMS）是组织、管理和查询计算机中的存绪数据并提供一定处理功能的大型系统软件，是计算机信息系统和应用系统的基础，可分为两类：

(1)基于微型计算机的小型数据库管理系统可解决数据量不大且功能要求较简单的数据库应用。

(2)大型的数据库管理系统功能齐全，安全稳定，支持对大数据量的管理并提供相应开发工具。

4服务性程序

服务性程序属于辅助性的程序．比如用于程序的装人、连接和编辑，调试用的装人程序、连接程序、编辑程序及调试程序，以及故障诊断程序、纠错程序等。考点5应用软件

应用软件是指人们为了解决某泞、领域的实际问题而编制的计算机程序。除了系统软件以外的所有软件都称为应用软件。随着计算机应用在不同领域的深人发展，应用软件的类型也不断增多，如各种用于计算的软件包、字处理软件、CA D软件、CAI软件、CAM软件，以及各种绘图软件等。

计算机硬件、软件及汁算机系统的组成情况如图1一3所示。

图1－3计算机系统组成考点6计算机网络概述

1计算机网络的基本概念

计算机网络是通信技术与计算机技术紧密结合的产物，通过通信线路及通信设备将分布在不同地点的具有独立功能的多个计算机系统连接起来，并在网络软件支持下实现相互的数据通信及资源共享的硬件系统。计算机网络按规模大小可分为局域网、城域网和广域网。

2计算机网络的发展厉史

（l）具有通信功能的单机系统阶段。

（2）具有通信功能的多机系统阶段。

（3）计算机网络阶段。

3计算机网络的主要特点

在不同的发展阶段，人们对网络的定义是不同的，这些定义大致可分为3类：广义的观点、资源共享的观点和用户透明性的观点。从目前计算机网络的特点来看，资源共享观点能比较准确地描述计算机网络的基本特征。下面简单介绍一卜资源共享的含义：

（1)资源共享。网络用户可以通过网络访问联网的远程计算机资源，也可以调用不同计算机共同完成任务。

（2）独立的计算机。网络中的计算机可以联网工作，也可以脱离网络独立工作。

（3）遵循共同的网络协议。为保证网络中的计算机能有序地工作，每台计算机在交换数据的过程中遵守共同的通信规则，一个网络协议主要由语法、语义与时序组成。

考点7计算机网络的分类

1分类方法

(1)根据传输技术分类：可分为广播式网络与点一点式网络。

（2）根据网络的覆盖范围与规模分类：可分为局域网、城域网及广域网。

2广域网

广域网（Wide Area Network，简称WAN）也称为远程网，其覆盖范围从几十千米到几千千米甚至上万千米，广域网具有以下特点。

（1)适应大容量与突发性通信要求

（2)适应综合业务服务要求

(3）开放的设备接口与规范化的协议

(4)完善的通信服务与网络管理。

随着通信技术的不断发展，数据通信的环境也发生了变化，主要表现在以下3个方面。

(1)传输介质由原有的电缆逐步走向误码率很低且带宽很宽的光纤

(2)局域网内部的数据传输速率已经达到IOMb/s一1 Gb/s，多个局域网之间高速互联的要求越来越强烈。

(3)用户设备性能大大提高，可以承担部分原来由数据通信网承担的通信处理功能

3局域网

局域网（Local Area Network，简称LAN）指网络服务区域在一个局部的范围内，可以有一台或多台计算及多个工作站通过其进行通信。它有以太网（Ethernet）、令牌总线（Token Bus）和令牌环（Token ring）3种工作原理。

局域网的技术特点主要表现在以下几个方面。

(1)覆盖范围有限，多用于公司、机关、校园等范围内的计算机终端与信息处理设备之间的联网需求。

(2)提供高数据传输速率、低误码率、高质量数据传输环境。

(3)易于建立、维护与扩展，一般为一个单位所有。

(4)决定局域网特性的主要技术要素为网络拓扑、传输介质与介质访问控制方法。

(5)从介质访问控制方法角度，可分为共享式与交换式局域网。

城域网

城域网（Metropolitan Area Network，简称MAN）是介于广域网与局域网之间的一种高速网络。早期的城域网主要采用光纤分布式数据接口（Fiber Distributed Data Interface，简称FDDI），它主要有以下几个技术特点。

(1)使用基于IEEE 802.5的单令牌的环网介质访问控制MAC协议。

(2)使用IEEE 802.2协议，与符合IEEE 802标准的局域网兼容。

(3)数据传输速率为100 Mb/s,联网的节点数`1 000,环路长度为100 km，(4)可以使用双环结构，具有容错能力。

(5)可以使用多模或单模光纤。

(6)具有动态分配带宽的能力，能支持同步和异步数据传输。

考点8Internet基础 Internet的形成与发展

(1)TCP/IP协议与ARPAnet的结合，使ARPAnet成为Internet的主干网。

(2)NSFnet从一开始就使用TCP/IP协议，是第一个使用TCP/IP协议的广域网。

(3)Internet实现了TCP/IP协议参考模型与协议的结合。TCP/IP协议使网络不受主机、用户微型计算机及所使用的操作系统的限制。

Internet的结构与组成

从技术角度上来看，Internet主要是由通信线路、路由器、主机、信息资源几个主要部分组成的。

(1)通信线路。将Internet中的路由器与路由器、路由器与主机连接起来。

(2)路由器。是Internet中最重要的通信设备之一，它的作用是将Internet中的各个局域网、城域网或广域网，以及主机互联起来

(3)主机。是Internet中信息资源与服务的载体。

(4)信息资源是用户最关心的问题，它会影响到Internet中站点受欢迎的程度。

TCP/IP协议、域名与IP地址

TCP/IP协议是为保证Internet正常工作而要求所有Internet中的主机都必须遵守的通信协议。它具有以下几个特点

(1)开放的协议标准，独立于特定的计算机硬件与操作系统。

(2)独立于特定的网络硬件，可以运行在局域网和广域网，更适用于互联网中。

(3)标准化的高层协议，可以提供多种可靠的用户服务。

(4)统一的网络地址分配方字模，使得整个TCP/IP设备在网中都具有唯一的IP地址。

在TCP/IP参考模型中，应用层包括了所有的高层协议，且一直有新的协议加人。应用层协议主要有下面几种。

(1)网络终端协议TELNET,实现网络互联中远程登录的功能二

(2)文件传送协议FTP,实现因特网中交互式文件传送的功能。

(3)域名服务DNS,实现网络设备名字与IP地址相互映射的网络服务。

(4)路由信息协议RIP，网络设备间交换路由信息的协议。

(5)电子邮件协议SMTP，实现网络中电子邮件的传送功能。

(6)HTTP协议，用于F 1.第一范式(1NF)及进一步规范化

关系模式需要满足一定的条件，不同程度的条件称做不同的范式，最低要求的条件是元组的每个分量必须是不可分的数据项，这叫第一范式，简称1NF，是最基本的范式。对于各种范式之间的联系有5NF C4NF仁BCNFC3NF仁2NFCINF成立。一个低一级范式的关系模式，通过模式分解可以转换为若干个高一级范式的关系模式的集合，这个过程就叫规范化。2.第二范式(2NF)若R EINF，且每一个非主属性完全函数依赖于码，则R∈2NFo 2NF就是不允许关系模式的属性之间有这样的函数依赖X-.Y。其中X是码的真子集，Y是非主属性,也就是说，不允许有非主属性对码的部分函数依赖。3.第三范式(3NF)关系模式R，＜U，F＞中若不存在这样的码X，属性组Y及非主属性Z(Z不包含于均使得X→Y，(Y函数依赖于X)Y→Z成立，则称R＜U, F＞∈3NF 4.Boyce一Codd范式(BCNF)若关系模式REINF，且对于每个非平凡的函数依赖X-} Y都有X包含码，则R EBCNF。在函数依赖的范围内，BCNF达到了最高的规范化程度。

考点35多值依赖和4NF 1.多值依赖

设R(U)是属性集U上的一个关系模式X、Y,Z是U的子集，并且Z＝U一X一Y}关系模式R(U)中多值依赖X→→Y成立，当且仅当对R(U)功的任一关系r，给定的一对(x,z)值有一组Y的值，这组值仅仅决定于x值而与z值无关。4.第四范式(4NF)关系模式R＜U，F＞司NF，如果对于R的每个非平凡多值依赖X→→Y(Y不包含于X)，X都含有码，则称R＜U，F＞∈4NF。

如果一个关系模式是4NF，则必为BCNF。

4.14关系模式的分解

考点36模式分解的等价标准

常用的等价标准要求分解是具有无损连接性的，并且是保持函数依赖的。

考点37关于模式分解的几个事实

(1)分解具有无损连接性和分解保持函数依赖是两个互相独立的标准。(2)若要求分解具有无损连接性，那么模式分解一定可以达到BCNF)。

(3)若要求分解保持函数依赖，刀厂么模式分解可以达到3NF，但不一定能达到BCNF。(4)若要求分解既具有无损连接性，又保持PA数依赖，则模式分解可以达到3NF，但不一定能达到BCNF。

4.15数据库设计的内容、方法和步骤

考点38关于数据库设计的概述

数据库设计是指对于一个给定的应用环境，包括硬件环境、操作系统和数据库管理系统(DBMS)等软件环境，如何使用这个环境来表达用户的要求，构造最优的数据库模式，建立数据库及围绕数据库展开的应用系统，使之能够有效地收集、存储、操作和管理数据，满足企业组织中各类用户的应用需求。

数据库设计方法中比较著名的有新奥尔良(New Orleans)方法。它将数据库设计过程分为4个阶段：需求分析、概念结构设计

一、逻辑结构设计和物理设计。4.16需求分析

考点39需求分析的任务

需求分析的任务是通过详细调查现实世界要处理的对象(组织、部门、企业等)，充分了解原系统(手工系统或计算机系统)的下作概况，明确用户的各种需求，然后在此基础上确定新系统的功能。新系统必须充分考虑今后可能的扩充和改变，不能仅仅按当前应用需求来设计数据库。需求分析的重点是调查、收集与分析用户在数据管理中的信息要求、处理要求、安全性与完整性要求。需求分析的阶段成果是产生系统需求说明书。考点40需求分析的基本步骤

需求分析的步骤有以下几个方面：

(1)需求的收集：数据，发生时间、频率，发生的规则、约束条件、相关联系、计划控制及决策过程。

(2)需求的分析整理二包括数据流程分析、数据分析结果描述、数据分析统计及分析围绕数据的各种业务处理功能，并以带说明的系统功能结构图形式给出。

4.17概念结构设计

考点41概念结构设计的目标和策略

概念结构是对现实世界的一种抽象，即对实际的人、物、事和概念进行人为处理，抽取人们关心的共同特性，忽略非本质的细节，并把这些特性用各种概念精确地加以描述。

设计概念结构通常有4类方法：自顶向下、自底向上、由里向外和混合策略。无论采用哪种设计方法，一般都以E-R模型为工具来描述概念结构。最常用的设计策略是自底向上设计策略。

考点42采用E-R方法的数据概念模型设计 1数据抽象与局部视图设计

以自底向上设计概念结构的方法为例，它通常分为两步：

(1)根据需求分析的结果(数据流图、数据字典等)对现实世界的数据进行抽象，设计各个局部视图即E-R图。(2)集成局部视图。

设计E-R图的步骤如下：

(1)选择局部应用(2)逐一没计E-R图二 2视图的集成

集成局部E-R图时需要两步。

(1)合并E-R图，生成初步E7R图。

各E-R图之间的冲突主要有3类：属性冲突、命名冲突和结构冲突：(2)修改与重构，生成基本E-R图。

修改、重构初步E-R图以消除冗余，主要采用分析方法。除分析方法外，还可以用规范化理论来消除冗余。

4.18逻辑结构设计

考点43 E-R模型向关系数据模型的转换

将E-R图转换为关系模型实际上就是要将实体、实体的属性和实体之间的联系转化为关系模式，这种转换的规则包括以下几点：(1)一个实体型转换为一个关系模式。(2)一个m: n联系转换为一个关系模式。

(3)一个1：n联系可以转换为一个独立的关系模式，也可以与n端对应的关系模式合并。(4)一个1：1联系可以转换为一个独立的关系模式，也可以与任意一端对应的关系模式合并。

(5)3个或3个以上实体间的一个多元联系转换为一个关系模式。

(6)同一实体集的实体间的联系，即自联系，也可按上述1: 1,1: n和m: n三种情况分别处理。

(7)具有相同码的关系模式可以合并。

考点44关系数据库的逻辑结构设计过程关系数据库的逻辑结构设计过程如下：

(1)从E-R图导出初始关系模式。(2)规范化处理。

(3)模式评价。(4)优化模式。(5)形成逻辑结构设计说明书。

4.19物理结构设计

考点45物理设计的内容

(1)存储记录的格式设计。对数据项类型特征进行分析，并对存储记录进行格式化

决定如何进行数据压缩或代码优化。

(2)存储方法的设计。物理设计中最重要的一个考虑是把存储记录在全范围内进行物理安排，包括顺序存放、散列存放和聚列存放。物理设计的结果是物理设计说明书。(3)存取方法设计。存取方法设计为存储在物理上的数据提供数据访问的路径。DBMS产品一般都提供了一些存储分配参数，供数据人员和DBA对数据库进行物理优化。

考点46物理设计的评价

数据库物理设计过程中需要对时间效率、空间效率、维护代价和各种用户要求进行权衡，其结果可以产生多种方案，数据库设计人员必须对这些方案进行细致的评价，从中选择一个较优的方案作为数据库的物理结构。

在数据库应用系统生存期中，总的开销包括：规划开销、设计开销、实施和测试开销、操作开销、运行维护开销。评价物理数据库的方法完全依赖于所选用的DBMS。

4.20实现和维护

考点47数据库的实现

数据库实现的主要工作有以下几个方面：(1)定义数据库结构。(2)编制与调试应用程序。(3)数据装载。

(4)数据库试运行。

考点48其他设计

其他设计工作包括加强数据库的安全性、完整性控制，以及保证一致性、可恢复性等，总是以牺牲效率为代价的。设计人员的任务就是要在实现代价和尽可能多的功能之间进行合理平衡。其他设计包括数据库的再组织设计、故障恢复方案设计、安全性考虑和事务控制等。

考点49数据库的运行和维护

在数据库运行阶段，对数据库经常性的维护工作主要是由DBA完成的，它包括以下几个方面：

(1)数据库的转储和恢复。

(2)数据库的安全性、完整性控制。(3)数据库性能的监督、分析和改进。(4)数据库的重组织和重构造。

4.21数据库管理系统概述

考点50 DBMS的系统目标

数据库管理系统(DBMS)是操作和管理数据库的软件系统，它由一组计算机程序构成，管理并控制数据资源的使用。数据库管理系统是数据库系统的核心DBMS的目标是用户界面友好、结构清晰和开放性。

考点51 DBMS的基本功能

DBMS主要是实现对共享数据有效的组织、管理和存取。因此，DBMS具有如下几个方面的基本功能。

(1)数据库定义功能。(2)数据存取功能。

(3)数据组织、存储和管理。(4)数据库运行管理。(5)数据库的建立和维护。

(6)通信功能和数据转换功能等。

考点52 DBMS程序模块的组成

大致来说，DBMS的程序模块可按功能划分为以下5个模块：(1)数据定义方面的程序模块。(2)数据操纵方面的程序模块

(3)数据库运行管理方面的程序模块

(4)数据库组织、存储和管理方面的程序模块。(5)数据库建立、维护和其他方面的程序模块。

考点53 DBMS的层次结构

可以将DBMS划分成若干层次，这样可以帮助我们更清晰地认识DBMS，更重要的是有助于DBMS的设计和维护。

(1)最上层是应用层位于DBMS核心之外。

(2)第二层是语言翻译处理层它处理的对象是数据库语言}A SQL,(3)第三层是数据存取层：该层处理的对象是单个元组。

(4)第四层是数据存储层。该层处理的对象是数据页和系统缓冲区。(5)操作系统是DBMS的基础。它处理的对象是数据文件的物理块。4.22新的应用需求对DBMS的挑战

考点54新的应用需求对DBMS的挑战

由于现在以关系型数据库管理系统(RDBMS)为主流。这些新应用需求要求数据库管理系统应该具有支持分布式操作、联机事务处理能力、决策支持能力、支持多媒体、大容量、复杂数据应用、兼容性和集成能力、异种数据库之间的互访能力、系统可靠性、安全性、大型系统等方面的管理能力。

在我国，当前流行的数据库管理系统绝大多数是关系型数据库管理系统，一般可分为如下3类：

(1)以PC机、微型机系统为运行环境的数据库管理系统。(2)以Oracle为代表的数据库管理系统，这类系统还有IBM DB2,Sybase等，也被称为主流数据库管理系统。

(3)以Microsoft SQI.Server为代表的介于以上两类之间的数据库管理系统。

4.23 Oracle数据库系统

考点55Oracle数据库系统简介

Oracle关系型数据库管理系统是美国Oracle公司的优秀软件产品，它采用SQL语言作为数据库语言。该公司于1979年推出了世界上第一个商业化的关系型数据库系统。Oracle数据库的特点包括兼容性、可移植性、可连接性及高的生产率。

考点56 Oracle的主要产品及其功能 1Oracle数据库服务霖功能及其特色

Oracle数据库服务器包括标准服务器和许多可选的服务器选件，选件用于扩展标准服务器的功能，以适应特殊的应用需求。

(1)标准服务器主要具有下列特色：多进程多线索的体系结构、高性能核心技术、高可用性和SQL的实现。

数据挖掘总结篇7

1.1 IMS系统简介

IMS是3GPP在R5版本中提出的。3GPP中所定义的IMS是由提供IP多媒体业务(如话音、视频等)的所有构架在分组传送网上的核心网元构成。IMS体系架构如下图所示,IMS中的主要功能实体有CSCF、MGCF、BGCF、HSS等。

(1)呼叫会话控制功能

呼叫会话控制功能CSCF主要由P-CSCF、I-CSCF、S-CSCF共3个功能实体组成。

(2)媒体网关控制功能

媒体网关控制功能(MGCF):控制媒体网关(MGW)中媒体通道的建立、释放以及呼叫的状态。

(3)出口网关控制功能

出口网关控制功能(BGCF)完成网络的选择和MGCF的选择功能。

(4)媒体资源功能

媒体资源功能(MRF)分媒体资源控制部分(MRFC)和媒体资源处理部分(MRFP)。

(5)归属用户服务器

HSS是存储用户相关信息的中心数据库,它除了存储用户的签约信息与位置信息外,还保存有与用户相关的、用来处理多媒体会话的定制数据。

1.2 IMS网络架构

IMS系统主要采用SIP、Diameter协议,SIP、Diameter协议基于IP承载,主要承载在CN2承载网上 ;IMS系统与7号信令系统互通时部分网元需要配置信令点编码,并通过TDM中继方式实现与7号信令系统的互通。

各本地网IM-MGW设备成对配置,并兼做信令网关 ;IM-MGW除需满足基本的互通功能外,IM-MGW功能上还应满足本地网的PRI/PRA用户的接入需求。

同时新建配套IMS网管设备,完成对各IMS设备I/S/P-CSCF、AGCF、HSS、ENUM/DNS、MMTEL、MGCF、IMMGW、MRFC/P、BAC、业务AS等设备的管理。

1.3 IMS网络架构主要特点

IMS架构主要特点 :基于IP的多媒体业务与会话控制核心网络 ;支持各种融合业务的公共平台 ;基于SIP协议的灵活性和标准化的开放接口,为支持广泛业务提供可能。藉由SIP协议的灵活性,IMS提供了一个综合的结构支持多样的应用。IMS业务体系架构支持多种应用服务器包括传统的电信业务和非电信业务如视频通信、即时信息、多媒体信息等。

1.4承载网设置

在IMS系统的引入上不规划新的VPN,而共用原有移动核心网及接入的VPN。同时,IMS系统私网地址的规划需注意与固网、移动软交换 / 分组域的地址不重叠,以减轻互通的复杂性。

IMS网络的信令和媒体设置一个VPN,与移动软交换VPN共用 ;IMS网络的管理VPN、IT VPN分别与移动软交换网管VPN、IT VPN共用,避免二次互通。这三个VPN在CN2上设置,并需要延伸到城域网,通过OPTIONA实现相应VPN的跨域,以实现可信终端及本地网BAC到IMS系统的VPN接入。

BAC需同时归属多个VPN,向上接入IMS信令和媒体VPN,用于接入到IMS核心控制层 ;向下接入非可信终端的接入VPN,用于接入各类非可信终端。在IMS接入的CN2 PE上需通过RT互注方式实现与固网软交换VPN互通。

2 IMS工程建设监理实践经验总结

在IMS监理实践中,电信运营商的IMS工程规模大、工期紧、任务重、困难多,建设单位对于质量进度安全要求高。主要有以下特点 :

工程规模大,准时到货困难。涉及厂家、部门多,工程进度任务艰巨。设备、维护、传输、电源配套,各专业的协调工作量大。局站数量众多,单局施工周期较短,对信息管理要求高。点多面广,现场协调管理工作量大。参建施工队伍技术水平参差不齐。质量控制、安全管理工作艰巨。

以下对IMS工程建设监理实施经验进行几个方面的总结 :

2.1 IMS工程中认真审核施工组织设计安装方案、设备割接方案

(1)严格执行施工组织设计 ( 施工方案 ) 审核程序 :

承包单位在开工前填报《施工组织设计 ( 施工方案 ) 报审表》,报项目监理部审核 ;总监理工程师组织审核,并签认同意,批准实施 ;施工组织设计 ( 施工方案 ) 经项目监理部审核后,承包单位如须做较大的变动,须经总监理工程师审核同意。

(2)认真审核施工组织设计 ( 施工方案 ) 的主要内容

监理审查承包单位的审批手续是否齐全 ;施工布置是否合理,施工方法是否可行,质量保证措施是否可靠并具有针对性 ;工期安排是否满足建设工程施工合同要求 ;承包单位的质量保证体系是否健全 ;安全、环保、消防和文明施工措施是否符合有关规定等 ;

监理参与审核IMS网络建设方案的合理性和可操作性,提出合理可行的建议。

在IMS网络设备安装涉及到设备断电、加电,设备割接入网,监理督促施工单位严格按照断电加电操作流程、设备割接入网方案流程进行操作,确保设备安装质量符合规范标准,确保新建及在建网络安全生产无事故。

2.2工程现场的质量、进度、投资、安全、信息等

本次工程施工过程中,通过旁站监理,对工程施工的各道工序和部位进行了严格的控制。对施工中存在的质量、进度、投资、安全、信息等方面的问题及时给予指出并要求进行整改、复查,及时协调解决工程中的问题以及各专业间的衔接问题,在整个工程实施过程中,监理与设计、施工及建设方保持了密切的联系,及时地进行信息沟通和探讨,全面消化、掌握设计和建设方的设计、建设意图,从而对工程的质量、进度、投资、安全等方面实施更有效地管理和控制。

(1)工程质量控制情况

依据工程监理规范及监理细则的要求,通过监理程序的良好运作,工程参建各方在工程实施过程中形成了本次工程的质量管理体系,严格按国家和行业的规范、标准以及建设方对工程质量的要求对质量进行控制。在施工过程中出现的问题及时与各方人员协调解决,有效地保证了工程质量和工程进度。

在验货时,对所到设备及材料进行认真检查验收,做到数量齐全,点验准确,搬运安全。

机架安装位置符合设计要求,机架垂直度、水平度符合规范要求 ;机架的零部件安装完整、牢固,表面无损伤,机架油漆完好,各种标志正确、清晰、齐全。

设备线缆走线时,电源线与信号线分开布放,在架顶部垂直上走线架。使用扎带进行固定时,要求扎带固定间距均匀,扎带头剪平无尖口。

设备调测时,对测试项目和测试数据根据测试指标进行了认真核对,符合要求后再进行下一项目的测试,对测试中发现的硬件安装的问题及时通知施工人员进行整改。

(2)工程进度控制情况

按照建设单位及设计规划的要求对工程进度进行合理控制,要求施工单位制定合理、切实可行的施工计划,协调施工单位多派人手,并选派熟练员工进行施工操作,不仅保证工程质量,也保证了工程施工进度。

(3)工程投资控制情况

本期工程在监理过程中,根据国家标准规范及建设方的具体要求,对工程的投资控制进行了有效管理,主要做到了如下几方面工作 :根据设计文件核对设备及配套材料的型号、规格、数量。施工过程中依据设计文件及现场实际情况进行设备安装及线缆路由布放,严格做到材料不短缺,施工不浪费,并对工程余料进行及时清点及清理等。

(4)施工安全监督管理

工程开工前,监理与相关施工负责人提出施工安全管理问题,要求施工单位建立完善的安全机制,每位施工人员均有安全生产的思想意识。在施工过程中,监理不仅检查施工人员的施工器具是否符合安全施工的要求,同时提醒施工人员注意设备和人身安全。主要是机架设备安装操作时注意设备安全,设备电源线连接操作及加电时注意设备、人身安全等,现场施工时要求设置施工牌。同时现场监理人员全程旁站进行监理检查,发现有不安全的隐患及苗头,及时指出并要求进行整改。

(5)信息管理

工程项目从开工到结束,我们安排专人负责信息收集管理,所有文件都有记录。做到信息管理贯穿全程。监理资料不仅是监理对工程实施工程质量监控的记录 , 也是工程交付使用中出现质量问题( 或事故 ) 时查原因、分清责任的依据之一。工程竣工验收交付使用后 , 及时成册移交建归档。

3结束语

我们觉得建设各方的重视、支持、有力配合,是工程顺利进行的前提。团结合作,加强协调,是工程顺利进行的保障。参建各方都是为了一个共同的目标。

大数据技术与档案数据挖掘篇8

关键词：大数据技术；数据挖掘；档案管理

伴随着大数据时代的到来，数据挖掘技术在档案管理中的应用将进入一个新的发展时期。尽管档案学术界很早就提出知识管理与知识挖掘，但知识挖掘尚停留在概念和理论探讨阶段[1]。大数据挖掘，即从大数据中挖掘知识，大数据挖掘技术有效地解决了数据和知识之间的鸿沟，是将数据转变成知识的有效方式[2]。因此，有档案学研究者认为“档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移，对大量数据的分析处理将成为档案馆的主要业务”[3]，“档案信息服务的底层基础可能不再是检索，而是智能化的数据挖掘”[4]。

大数据时代给数据挖掘技术带来的根本性改变是使数据的深度挖掘成为可能，对大量数据进行分析处理和智能化挖掘，从管理角度来看，要达到最优的结果，不仅数据要全面、可靠、有价值，而且需要对数据进行深度挖掘。

1 数据深度挖掘是大数据技术应用于档案管理中的主要特点

数据挖掘技术是通过对海量数据进行建模，并通过数理模型对企业的海量数据进行整理与分析，以帮助企业了解其不同的客户或不同的市场划分的一种从海量数据中找出企业所需知识的技术方法[5]。数据深度挖掘，是一个对数据进行建模的过程，并对数据进行分类与统计，查找得出数据分布的关联性，这也是探索规律的过程。

如，档案人员想要做好档案编研选题，不仅要对用户利用档案数据，包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等进行深度挖掘，而且还需要对用户访问记录，包括网页采用的关键字、下载记录、检索词、用户利用网页时间和频度等信息进行深度挖掘，然后利用分类功能及数据分析，建立档案编研选题的用户模型，一是按需确定不同类型的编研选题，提供个性化的服务；二是根据档案用户需求特点，预测其未来趋向，结合社会热点选定档案编研题目，从而使档案编研部门推出用户满意的编研成果。在档案利用方面，对档案利用登记数据库进行深度挖掘，分别选取不同方面数据进行建模，可以得出不同档案利用形式的变化趋势，从而对档案利用趋势进行分析和预测，对利用频率高的档案进行全文数字化，既可以提高档案利用效率，又可以起到保护档案原件的作用。

因此，档案数据的深度挖掘是大数据时代的主要特点，档案学的发展历程告诉我们，每一次重大的技术变革都必然影响着档案学的发展，如计算机和网络技术的引入，引起了档案管理理念与实践的变革，改变了文件与档案的处理流程[5]。大数据技术对档案数据的深度挖掘为档案管理流程由粗放走向精细化提供了可能。

2 大数据技术对档案数据深度挖掘使档案管理模式走向精细化

大数据挖掘技术基于传统的数据挖掘，使用的是数据仓库，构造的是“泛关系”的聚分类模型，采取的是海量数据分析方法，机器与人类一样具备语义知识，提供的是可视化视图来揭示信息，可以说是传统数据挖掘方法的深化。由中国人民大学网络与移动数据管理实验室开发ScholarSpace，大数据处理的最基本流程由数据来源、数据抽取与集成、数据分析、数据解释等过程组成[6]，分析认为大数据技术对档案数据挖掘由数据采集层、数据整理层、数据分析层、数据展示层组成。

2.1 数据采集层收集高质量的档案数据，为档案管理精细化奠定基础。数据采集是大数据技术处理流程中最为基础的一步，高质量的数据是大数据技术发挥效能的前提，大数据技术只有在高质量的大数据环境下才能提取出隐含的、有用的信息。由于大数据具有实时与动态性特征，“在线”、“近线”和“离线”的各种数字资源均是采集对象。为了使所获得的数据更具有代表性，通过什么方式获取数据信息显得格外重要。数据采集层要收集不同数据源产生的数据，为档案数据挖掘的后续工作做好准备。

2.2 数据整理层改变传统数据处理方式，凸显档案管理精细化过程。经过各种渠道获取的档案数据种类繁杂、结构多样，通过处理、集成、存储可以做到：

一是将结构复杂的数据转换为单一的或便于处理结构的数据。现代互联网应用呈现出半结构化和非结构化数据大幅度增长的趋势，这些资源将成为馆藏的重要来源。如，对档案系统运行日志资料等数据，就需要转换成结构化数据，形成档案统一的语言。二是对采集到的数据进行“去噪”和“清洗”，以保证数据的质量和可靠性。由于原始数据中有噪声数据、冗余数据等问题，对数据进行解析、清洗、重构，以提高待挖掘数据的质量。三是对整理好的数据进行存储，建立专门的数据库分门别类地放置，减少数据查询和访问的时间，提高数据提取速度。

2.3 数据分析层对档案数据的精细分析，凸显档案管理精细化的思维模式。数据分析是整个大数据处理流程最为核心的部分。“相关性”分析是大数据技术重要的思维模式，通过对数据彼此关联性的分析，能够更清楚地看到隐藏在背后的看似不相关的数据之间彼此的密切联系，使档案数据挖掘从常规分析向广度、深度分析转变。

“相关性”分析可激活数字档案资源，大数据技术的核心作用就是挖掘出庞大的数据仓库独有的价值，不管是网络实时运算的“热数据”，还是非在线的“冷数据”，通过对档案数据的综合挖掘、深度整合和数据分析，激活休眠状态的档案资源，展现数据价值，创造出新知识、新价值。“相关性”分析能有效破除信息孤岛的数据壁垒，使各个孤立的、互不联通的数据库之间资源实现充分共享。

2.4 数据展示层为档案用户提供更加精准服务，凸显档案管理精细化“以人为本”的价值追求。对档案用户来说，最关心的不是数据分析处理过程，而是对大数据分析结果的解释与展示。若数据分析的结果不能得到精准的展示，会对档案用户产生困扰，甚至会误导用户。通过档案管理信息系统，将深度挖掘的数据可视化，可以使用户清楚地看到未来发展的方向，从而对决策结果作出评价，这也是决定整个系统挖掘技术是否成功的标准。

3 大数据技术对档案数据深度挖掘，将档案管理精细化发挥到极致

大数据技术在档案管理中的应用从两个方向进行描述：从横向上看，以大数据挖掘技术为中心沿数据收集、整理、分析到展示等技术解决方案；从纵向上看，以数据产品为中心沿档案资源挖掘、用户数据挖掘及关系洞察及趋势预测逐级递进。大数据技术对档案数据深度挖掘使档案资源与用户需求的双向控制达到最优化，凸显管理精细化趋势。

3.1 档案资源挖掘。由于缺乏综合数据挖掘和深度整合，档案资源存在着重藏轻用深度挖掘不够的问题，因此，通过对档案资源数据的深度挖掘，展现数据价值，创造出新价值。

首先，大数据时代树立“大档案”工作思路，重视数据积累，不仅要建立档案资源体系，还要建立数据资源体系观。其次，建立共享档案数据资源库。以省级为单位，建立集中的、规范的、可供共享的档案数据资源库，使各档案馆藏之间相互关联，成为一个内容丰富且不拘泥于实体存储的，信息互联共享的档案数据资源网。最后，利用云计算平台和处理技术构建档案数据资源网，可以用于实时性档案数据的接收，也可以对非实时性数据进行分类处理，使其成为档案用户提供服务的平台。

3.2 用户数据挖掘。通过对用户数据挖掘做到精确洞察，精准服务，提升档案用户认同感，实现档案服务价值。用户数据挖掘包括以下方面：

一是对用户信息进行数据挖掘。提取用户的信息需求，查看用户访问服务器时留下的日志文件，跟踪用户行为，推测用户兴趣，提供个性化利用服务。二是对用户统计检索和浏览记录进行挖掘。如，利用统计分析的方法，通过分析用户对档案目录的点击率，选取点击率高的档案进行数字化；通过分析用户检索时使用的档案检索词，充实和完善数据仓库中的检索关键词，以提高查准率；通过统计分析用户对网页的访问频率，进而开展深层次的信息服务。

3.3 关系洞察及趋势分析。无论是档案资源和用户数据，通过挖掘得到的仅是某一方面的数据，这些数据往往是孤立的数据点，因此，要使这些数据集成为一个完整的网络，必须对数据网络后面的数据关系进行深入分析。如，单单对档案收集情况进行挖掘，得到的仅仅是档案人员与档案之间的关系，对档案利用情况进行挖掘，得到的仅仅是档案与用户之间的数据关系。然而，要想精准洞察档案之间、用户之间及档案与用户之间关系，必须将以上各个孤立的数据点进行整合，得到一个完整的档案网络，才能使档案发展、社会服务等趋势的预测成为可能。

4 积极探索综合性的对策促进档案数据深度挖掘的实现

在融合数据，精细分析后，我们应通过综合性的策略保证大数据技术在档案数据挖掘中的应用落到实处，保障大数据技术在档案管理应用中的有效实现与良性循环。

4.1 建立以大数据技术为核心的数据资源体系，使档案数据挖掘具有时代特色。构建一个“以数字资源为主体，以文本、图片、音频、视频等为形式，为中华民族集体记忆的建构和传承提供文献支撑的‘中国记忆数字资源库”[7]，是时代赋予我们的目标与使命。

首先，扩大数据总量，构建现代化的档案资源体系，加强实体资源的建设，完善档案门类，优化馆藏结构。其次，加强数字资源建设，按照“存量数据化，增量电子化”战略，组建数字化档案资源库，加强电子文件的收集归档。最后，积极开放数据，整合数据资源，增强知识挖掘，实现数据增值。大数据技术为档案管理的深度挖掘提供了数据管理方面的保障，而对数据的深度挖掘使档案馆的功能扩展到发现与预测。

4.2 构建以人为本的用户关系管理，使得档案数据内在关联得以深度挖掘。大数据时代最大转变是放弃对因果关系的渴求，取而代之关注相互关系，只要知道“是什么”，而不需要知道“为什么”[8]，这一转变将使我们以新的视角去理解档案用户数据挖掘。

利用大数据技术可以掌握用户此前的行为、正在进行的实时行为，还可以对用户未来行为进行预测分析，深度挖掘数据内在关联，促进资源集成创新，实现档案数据资源的增值服务。借助大数据技术，对用户搜索方式、行为轨迹、使用习惯、利用兴趣、存储行为等数据进行分析，有效发现用户隐性诉求。如，针对不同用户，产生动态推荐超级链接列表。建立以用户名为单位的个性化数据库，把用户想要的东西、挖掘分析结果放入。

4.3 在挖掘数据同时保护数据隐私安全，为档案数据深度挖掘提供良好的环境保证。大数据时代的隐私保护面临着技术和人力层面的双重考验，如果将这些数据合理利用，将为档案预测决策提供必要的情报信息。如何在保护隐私的前提下对档案数据进行有效的挖掘，我们应做到：一是健全法律规范对个人的隐私权利给予保护，建立健全数据安全管理规划体系，避免因个人隐私数据被随意挖掘滥用而造成影响社会稳定的事件发生。二是使用保护数据隐私的数据挖掘方法，合理界定哪些信息是属于私人信息，在保护私人信息安全的情况下进行数据挖掘。

4.4 借力“智慧因子”完善大数据技术在档案数据挖掘中的应用。随着“智慧城市”的提出，智慧的概念涉及各个领域，智慧档案馆也应运而生，智慧档案馆的核心理念是智慧服务，在大数据技术中植入智慧因子，依托物联网技术将馆舍、档案、网络、数据以及用户统一在智能网络中，达到有效整合和深度挖掘，深层次推动档案服务智慧化。大数据技术不仅将档案资源、用户数据、关系洞察及趋势分析产生的各种数据资源进行汇聚融合，而且利用智慧服务理念创新开发个性化的服务手段，使得档案知识的隐性知识显性化，为用户提供精细化的服务体验，推进档案信息资源智慧服务和知识空间的构建。

5 结论

大数据时代，大档案、大服务、智慧档案等成为档案工作的新发展，随着档案管理创新的深入推进，大数据技术将真正落实到档案管理各个环节，数据挖掘技术将更加娴熟地在档案管理中得到运用。通过本文分析我们得出以下结论：

（1）档案数据的深度挖掘是大数据时代数据挖掘技术在档案管理应用中最主要特点，促进档案管理模式发生改变。因此，在开展档案管理流程研究时，应当立足于这一点，从而达到整体的最优化。

（2）大数据技术对档案数据的深度挖掘历经不同过程环节，我们应当在厘清各环节的基础上，采取有效措施促进整个过程的有效运行，实现整个过程的良性循环与互动。

（3）大数据技术对档案数据挖掘的实现除了依赖大档案数据资源作为基础外，还需要有“以人为本”的用户关系管理、智慧服务理念、规范化的数据安全管理环境等，因此，档案部门应当加强与各部门之间的协同合作，实现大数据技术在档案管理中的应用。

参考文献：

[1] 于英香.档案大数据研究热的冷思考[J].档案学通讯，2015（2）：5.

[2] 王雅洁等.大数据挖掘在食品安全预警领域的应用[J].安徽农业科学，2015（8）：332.

[3] 周枫.资源技术思维——大数据时代档案馆的三维诠释[J].档案学研究，2013（6）：63～64.

[4] 张芳霖，唐霜.大数据影响下档案学发展趋势的思考[J].北京档案，2014（9）：12.

[5] 曹莉.刍议大数据时代的数据挖掘与精细管理[J].经营管理者，2013（18）：191～192.

[6] 孟小峰，慈祥.大数据管理：概念、技术与挑战[J].计算机研究与发展，2013（1）：150～151.