在excel中快速检索大量数据

2024-09-16

在excel中快速检索大量数据(通用6篇)

在excel中快速检索大量数据 篇1

如果要在一个成百上千行的数据中找到上百个没有规律的数据,那可是一种比较麻烦的事,例如,笔者学校最近进行学生资料造册工作,很多老师都在苦恼,有没有办法将手中的200名学生名单在学校总的学生名单册(3000人的Excel2007工作表)中快速找出来?这个时候,使用Excel2007的粘贴函数VlookUp,就能让这种“复杂”的检索问题变得简单。

检索原理是利用Excel2007粘贴函数中的“查找与引用”函数VlookUp()来搜索表区域首列满足条件的元素,确定待检索单元格在区域中的行序号,再进一步返回选定单元格的值。

操作步骤:

第一步,将需要检索的学生“姓名”列置于“子表”工作表的首列;

第二步,在“总表”工作表的姓名列(B列)后插入一空列(C列),用于显示检索结果,如检索到数据就显示该学生的姓名;

第三步,在C2单元格中输入公式“=VlookUp(B2,子表!A$2:A$201,1,FALSE)”;如果在“子表”工作表中检索到B2单元格的值,则在C2单元格中显示B2中的姓名,否则显示信息“#N/A”;

第四步,拖动C2单元格的填充柄复制公式到C列的其他单元格;

第五步,对C列按升序排序,即可在“总表”工作表中检索出“子表”工作表中的全部记录,

总结:此方法不失为在Excel2007中检索大量数据的好方法,同时也可以用此方法进行多个工作表的数据合并。但检索的数据最好是没有重复值的,如“学籍号”、“身份证号”、“注册号”等,否则会把所有的重复值都找出来,使用时要多加小心。

在excel中快速检索大量数据 篇2

这里讲的“模糊”来自英文“Fuzzy”,它除了有“模糊的”含意之外,还有“边界不清的”和“不分明的”的翻译。模糊数学是有数学方法研究并处理某些具有“模糊性”现象的数学。这里提到的所谓“模糊性”,主要是指客观事物之间差异的过渡中的“不分明性”。例如日常生活中的“高个与矮个”、“冷与热”、“美与丑”、“温饱与饥饿”、“干净与污染”等都难以进行明确地划定界限。

随着科学的发展,过去那些与数学很少或根本没有关系的学科,如社会科学、生物学、语言学、心理学等,它们的发展迫切需要定量化和数学化,这就使人们遇到大量的模糊概念,这也是由这些学科的特点决定的。人们不能容纳现有的数学方法而改变由于这些学科的特点而决定的客观规律,而只能改造数学,使得它面对更广泛的应用。

模糊数学从它诞生之日起,便与计算机的发展是密切相关,相辅相成的。可以说:没有电脑,没有模糊数学。另一方面,如果没有数学,计算机应用将极大地限制。模糊数学利用计算机程序可以更广泛更深入地模拟人类的思维,构建数学模型,从而提高计算机的“智能”,使其能够模拟人脑的思维方式,以应付复杂多变的环境,如让计算机自动驾驶汽车,大型建筑自动升降,自动调节灌溉和排水系统;或让电脑参加在心理学领域、经济学、社会科学活动。然而,这些计算机的“智能”的发展主要障碍在于:现在的数学无法全部、真实地反映人类大脑的思维活动。因此,科学要发展,电子计算机也要发展,它决不能屈服于使用现有的计算机,而使思维迂腐起来,所以更离不开模糊数学,因为模糊数学模型编制计算机程序可以使计算机“灵活”起来,对付难以处理预测的复杂环境。因此有人认为:计算机科学是模糊数学的摇篮。它将与计算机的发展而成长、壮大,并深入到国民经济的各个领域。

2 快速模糊检索问题的提出

对于一个大型数据库应用系统,检索速度的快慢和可提供多少种检索途径,往往作为衡量该应用系统优劣的主要指标之一,很大程度上决定该数据库的实用价值。建立有关索引是一种提高检索速度的有效办法,但是在用户提供检索的条件键值不完整,即所谓模糊的条件下,则不能直接使用索引检索。现代数据库系统软件一般提供常规的模糊检索方法,如美国DEC公司的RDB/VWS关系型数据库提供了MATCH-ING(匹配)关系运算符,或CONTAINING(包涵)关系运算符进行关系条件运算操作,利用这些检索方法,均为对数据库全扫描,逐条记录比对查找。在小型数据库中,该方法使用灵活方便,十分有效。但对于大型数据库,这些检索方法需花费较多的时间,对某些应用部门,这样的检索响应时间不能满足其实际应用需要。因此快速模糊检索成为大型数据库应用的一个值得深入研究的课题。为便于研究和讨论,下文以纳入360万条人口信息基本信息库为对象,以其中使用模糊检索最为频繁的姓名字段作为快速模糊检索的目标,展开有关的讨论和提出相应的解决方法。文中提出的方法可以在不改变数据结构、不增加索引文件的前提下,应用到检索字段已建立索引且结构规范的任何大型数据库。

3 快速模糊检索的数学模型

为了解决模糊信息的快速检索,首先考察常规的检索方式、汉字姓名的结构以及模糊汉字姓名的特点,然后提出有关的检索模型。

在DEC公司VAX8350(8M字节内存)的计算机上,采用常规检索方法,几种数据访问方式的速度是:

(1)使用COBOL语言对顺序数据文件进行读访问,其速度为每秒读取1500条记录。

(2)使用VAXRDB/VMSV2.2关系型数据库,以顺利全扫描方式检索:

1)如果数据库所有记录均满足检索条件,其检索速度约为每秒读取90条记录。

2)如果在数据库中,只有小部分记录满足检索条件,则检索速度约为每秒扫描600条记录。

(3)若在包含有300多万条记录的RDB数据库中,以索引方式检索:

1)如果数据库中所有记录均满足检索条件,则每秒可大约读取20条记录。

2)如果数据库中只有小部分记录满足检索条件,则平均每秒大约可完成65次检索操作。

从以上检索速度可以看到,采用全扫描方式进行模糊检索,一个三百多万记录的数据库约需80min的时间才能完成,因此全扫描的方式难以达到快速检索。另一方面,使用按键值排序的实体数据结构,虽然可解决信息的快速检索,但却限制了该实体数据不能变或不能经常改变。因为数据变化后用于重新排序所花时间是很长的。这对于一个需要经常维护的数据库系统,这种使用方法也是不合适的。最后解决问题的思路集中到索引检索方式上。可是要进行索引检索就必须提供确切的检索键值或明确的界限,但这又与模糊的检索条件相抵触,这成为问题的焦点。围绕这对矛盾,我们通过对检索键值的分析,寻找解决问题的出路。

4 实现方法

目前,相对多软件公司的人口信息管理系统都实现了姓名模糊检索,其原理多是建立系统自身的同音字典(拼音加汉字字段的数据表),通过字典中拼音字段的匹配实现姓名汉字的模糊检索。笔者在近年来开发人力资源信息系统的实践中,摸索出一种新方法,省却了构建同音字典带来的大量劳动,同样实现了姓名的模糊检索。现说明如下:

比较汉字字符串a是否相似于汉字字符串b,设a的长度为n(n为整数),将汉字字符串分为n部分,每一部分用a(n)来表示,借助数学表达式,则为

将两个汉字字符串的相似程度设为m,那么a与b的相似程度可表示为

当m=1时,就是说,经过比较,每一个a(i)∈b成立,则a与b完全相同,即所谓的精确查询,如比较汉字字符串“孙威”和“孙威”的相似程度。当1>m>=0.4时,就是说,汉字字符串a(长度为n)的n个部分中,满足a(i)∈b条件的达到了40%甚至更高的比例。通过笔者实践,此时汉字字符串a与b的相似程度最符合现实需求,如比较汉字字符串“孙巍”、“孙为”、“苏伟”、“宋威”等与“孙威”的相似程度。满足此种条件,不仅实现汉字同音检索,同时也实现了汉字的谐音检索。下面以笔者设计的外来人口管理程序为例予以说明(程序设计语言为Delphi 5)。

首先构造一个自定义函数,实现(式2):

例如系统数据中存有3条记录,其name字段值分别为“孙为”、“林民”和“利鸣”。运行上述程序,输入查询条件为“李民”,系统可将“林民”和“利鸣”全部检索出来,从而实现了模糊功能,结果如图1和图2所示。

5 结语

利用上述的检索方法应用在实际工作可以取得良好的效果。这种模糊检索方法,不只局限于模糊姓名检索,如其他行业的人口/人力资源管理信息查询、产品查询系统都可以适用,作为一种通用方法,都能发挥良效。也可把该检索模型引申到其他数据类型和其他应用环境中去,创造出更有效的检索方法,从而发挥出更大的经济效益。

程序运行环境:P4兼容机/Windows XP。

程序语言:Delphi 7。

网络数据库:Oracle 8。

摘要:模糊检索是以满足汉字字符串的相似程度来实现汉字同音及谐音检索,这种方法区别于传统的同音字典模糊检索法。深入研究了快速模糊检索在大型数据库中的应用。

关键词:模糊检索,自定义函数

参考文献

[1]刘前进,王蒙,张宏林,等.Delphi数据库编程技术.北京:人民邮电出版社,1999.

[2]楼世博,等.模糊数学.北京:科学出版社,1985.

[3]汪培庄.模糊集合论及其应用.上海:上海科技出版社,1983.

[4]汪培庄,等.模糊系统理论与模糊计算机.北京:科学出版社,1996.

[5]常桂然,等.信息检索服务系统与搜索引擎.计算机科学,1998.

索引在数据检索中的重要作用 篇3

关键词:数据检索索引检索速度

随着数据库技术的飞速发展和广泛应用,各行各业都积极采用这一先进技术进行数据的管理与使用。在数据库的诸多应用中,最常用和最重要的功能是什么?答案无疑是数据检索。毫不夸张的说,数据库在运行和使用的过程中,百分之九十以上的操作都与数据检索息息相关,甚至有些数据库创建的目的就是提供数据检索。

在数据库的运行过程中,数据检索是最频繁的操作。此外,例如数据的修改、数据的删除都要建立在数据的检索基础上。再比如数据库系统中视图的实施、存储过程的设计等数据库对象的管理,其核心内容也是数据的检索。

数据检索过程中最重要的就是检索的精度与速度。要求尽可能在最短的时间内准确的找到目标数据。检索的精度基本依靠于编程人员自身的水平,而检索的速度则受到多方面因素的影响。其中,索引技术是数据库管理系统中最常用的提高检索速度的手段。

1 索引概述

索引是对数据库表中一列或多列的值进行排序的一种结构,它就好比一本书的目录,可以大大提高用户检索数据的速度。索引是作为一个单独的文件存储在数据库中的,与其依附的基本表分开存储。引入索引的主要目的就是提高检索数据的速度。一个数据库中是否建有索引、索引机制设计的是否合理,对数据库检索速度的影响是巨大的。

2 索引分类

根据索引自身结构的特征,可以将索引分为:普通索引、唯一索引、主键索引和聚集索引。

2.1 普通索引:普通索引没有特殊的结构特点,索引中每个键值项都有指向包含该键值的数据行的指针。

2.2 唯一索引:与普通索引不同,唯一索引中不允许任何两行具有相同索引值。

2.3 主键索引:严格来讲,主键索引并不是一种索引类型,而是索引的一种特殊应用。创建主键时,数据库引擎会自动创建唯一的索引来强制实施PRIMARY KEY约束的唯一性要求。如果这个表之前没有聚集索引,同时建立主键时候没有强制指定使用非聚集索引,则建立主键时候,同时建立一个唯一的聚集索引。

2.4 聚集索引:一种特殊索引,索引中键值的逻辑顺序决定了表中相应行的物理存储顺序。每个表只能有一个聚集索引,因为表和视图中的数据行本身只能按一个顺序排序。

上述类别并不是严格区分的,例如主键索引同时也可能是聚集索引,聚集索引也可能是唯一索引。

3 索引原理

索引的主要功能是提高检索速度,那么它是如何实现这一功能的呢?这里引入一个现实中与数据检索过程类似的工作——下发作业本,来对无索引、普通索引和聚集索引对于数据检索的影响加以说明。

3.1 没有索引

假设在一个班级中,老师要下发学生的作业本(相当于检索数据,下发作业所用路线越长,意味着检索时间越长)。学生的座位是随机安排的(数据是无序的存储在硬盘中),只是在座位上标有学生的学号。教师手中没有学生的座位表(没有引入索引),下发作业只能逐个查看学生座位上的学号,直到找到目标学生。假设学生目前实际的座位情况如图1所示,现在要发放学号为1、4和13三名同学的作业。

首先发放1号学生的作业,因为座号无序,教师手中也没有座位表,所以教师只能逐个座位去查看座位上的学号是否为1号,直到找到1号学生为止,路线如图2示。

接下来发放4号同学的作业,与发放1号作业相同,教师需要从头逐个查看,路线如图3中■线路所示。同样,发放13号作业时也要返回起点后再逐个查看。可见,这样的方案效率是十分低的。

3.2 普通索引

当一个基本表引入普通索引的时候,就如同教师手中有了座位表一样,发放作业时可以直接找到该学生座位,这样发放作业的路线就变得简单很多,如图4所示。

通过图4和图2的比较,可以看出第二种方法发3本作业的路线比第一种方法发1本作业的路线还短,效率大大提高。但是同时也可以看出,这种路线也存在折返与重复的情况存在,即不是最佳方案。

3.3 聚集索引

聚集索引会将数据按照逻辑顺序重新排列,就如同教师不仅拥有座位表,而且学生的座位也是按照学号有序排列的,这使发放的路程更加简单,如图5所示。

从图5中可以看出,该方案没有折返和重复的路线,基本上是最优的发放方法。所以从上述三种方法可以看出,无索引,普通索引和聚集索引对于检索的影响有多么明显。如果将这种影响放大到存放成千上万数据的数据库中,结果可想而知。

4 使用索引的注意事项

虽然索引可以加快数据检索的速度,但是一定要避免盲目创建索引,原因主要有两点。

4.1 索引文件创建后,单独形成一个文件存放索引键值和指针,创建索引的表中数据越多,相应的索引文件也越大。如果盲目建立过多的索引,会占用系统很多的介质资源。

4.2 索引的维护由系统自动完成,当基本表的数据增加、删除或修改时,索引文件要随之变化,以保持与基本表一致。所以,索引越多,系统的负担越重。盲目创建索引势必给系统带来不必要的负担。

总而言之,要想使数据库在运行的过程中提高效率,索引是不可忽视的重要技术手段。如果想要索引更好的发挥作用,就必须掌握其工作原理,避免该用不用,不该用乱用的情况出现。

参考文献:

[1]张舒.超大型Oracle数据库的基础设计和优化设计.价值工程.2011-04.

[2]赵云峰,甘建.数据库的查询优化方法分析.中小企业管理与科技.2010-02.

[3]金喜波,杨明远,刁树民,张晓勇.在数据库系统中应用索引重建技术.中小企业管理与科技.

作者简介:董海军,(1977-)男,河北唐山人,辽宁机电职业技术学院信息系讲师,计算机技术应用研究室主任,研究方向为计算机软件开发与应用。

Excel 快速定位数据 篇4

在Excel2007中重定位单元格中的数据

方法1:按F5键弹出“定位”对话框,在“引用位置”输入地址,然后分具体情况操作:

(1)要定位到某一单元格,可在“引用位置”输入“C5883”(C代表列),

(2)要定位到某一行或多行,可在“引用位置”输入“5883:5883”或“5883:5888”。

(3)要定位到一块矩形区域,可在“引用位置”输入“C5883:H5888”。

(4)要定位到多个不连续的单元格,可在“引用位置”输入“C5883,F5891,H6078”。

方法2:在编辑栏的“名称框”中输入地址,输入方法同上。

在excel中快速检索大量数据 篇5

2、同时选中A5至S1075单元格区域(员在资料所在区域,请根据实际情况确定),执行“格式→条件格式”命令,打开“条件格式”对话框(如图2)。“

3、单击“条件1”右侧的下拉按钮,在随后出现的下拉列表中,选择“公式”选项,然后在后面的方框中输入公式:=$B5=$C$3,再按一下“格式”按钮,打开“单元格格式”对话框(如图3)。”

4、在“字体”标签中,将字符颜色设置为“白色”,然后切换到“图案”标签下,选中“黑色”,确定返回“条件格式”对话框,

“ 注意:字符颜色和单元格填充颜色(图案)请根据你的实际爱好确定,只以醒目就可以了。 5、再单击“添加”按钮,新增一个“条件格式”,并仿照上面3、4步的操作再设置另一种条件格式。 注意:其中的公式为:=LEFT($B5,1)=$D$3(该公式的含义是:如果姓名的第1个字符――LEFT($B5,1)与D3单元格一致,则执行此条件格式)。 6、全部设置完成后,单击“确定”按钮返回即可。 以后需要浏览某个员工的数据时,我们这样操作: 如果记得全名,我们就在C3单元格中输入其全名(如“刘晓风”),然后拉动垂直滚动条,即可快速定位到已经被突出显示出来的员工数据所在行,浏览其详细情况。

如果只记得其姓氏,我们就在D3单元格中输入其姓氏(如“刘”),则所有该姓氏的员工数据所在行都被突出显示出来(如图5),拉动垂直滚动条,同样可以方便、快速地浏览到所要查询员工的基本情况。”

在excel中快速检索大量数据 篇6

一、使用“数据分析”功能的基本方法

Excel提供了“数据分析”工具包,包含常用的方差分析、描述统计、直方图、回归分析、t-检验等分析工具。若要使用这些工具,应先单击“工具”菜单中的“数据分析”。首次调用,需先加载宏“分析工具库”。步骤如下:

1.在“工具”菜单上,单击“加载宏”。

2.在“可用加载宏”列表中,选中“分析工具库”框,再单击“确定”。出现“数据分析”菜单。

3.选择“工具”菜单中的“数据分析”,出现“数据分析”对话框,单击要使用的分析工具的名称,再单击“确定”。

二、分析学生成绩绘制频率直方图的基本步骤

我们以2010年级某专业同学某门课程期末成绩为例,我们来讨论绘制频率直方图的主要步骤:

(一)输入数据,进行区域排序

为方便起见,将82个数据以矩阵形式输入到学生成绩统计表中,存入Excel的工作表中的适当区域。

学生成绩原始数据:

将学生成绩数据存放后,利用SMALL函数进行排序,排序公式SMALL(数据存放区域,ROW (Amn)*k+column (Amn)-mk-(n-1)), Amn为存放第一个数据所在位置,k为排序后每一行存放数据个数。任选新的区域存放排序后数据,选横拉k个数,再下拉,直到数据排序完毕。得到如下成绩表:当然也可以把学生成绩输入为一列,再利用Excel排序功能进行排序。

(二)点击工具数据分析描述统计,选定原始数据列存放形式,任选结果输出区域,得到统计描述结果

从中看出,82个学生平均成绩为73.89分,方差为307.18.

(三)计算极差R

最大的数据减去最小的数据

R=xmax-xmin=99-18=81

(四) 分组

1. 根据要求,不及格为0~59分,及格60~75,良好

左端点,右端点为b,所表示区间范围:

(五)生成频数分布表和直方图

1. 打开“工具/数据分析”,在分析工具窗口中选择“直方图”;点击确定。

2. 在直方图弹出窗口“输入区域”输入数据方阵“82位学生成绩数据位置”:

在“接收区域”输入分组右端点所在列区域:

3. 在输出选项中,点击“输出区域”,表示频率数表输出存放区域,位置任选。

4. 在输出选项中,点击“图表输出”。其他选项,若没需要,可以不选。

点击“确定”按钮,立即显示如下所示的频率分布表(表1)和直方图(图1)。

注:1.此图表中的“频率”实乃频数,所以应将表中“频率”改为“频数”,接收区改为相应分组文字,得表2

2.直方图是按照左开右闭的方式对落在各区间的数据进行频数统计绘制的;

3.从直方图来看,学生成绩基本符合正态分布。

(六)修改频率分布表

另存表(2)为表(3),将表(2)“频率”改为“频数”,并在频数列右侧增加一列频率,计算频率。即频率=小组频数,本例中,只需计算第一组的频率,下拉即可数据总数

得这列频率数据值。修改后频率分布表见表3

(七) 完成频率分布直方图

将表(2)频数列替换成表(3)频率列,点击右键数据标志格式,得到频率分布直方图(见图2)。

此种绘制方法可以用在工程上,可以作进一步修改,使之符合我们使用要求。

我们还可以用Excel解决回归分析、t-检验等各种统计问题,无需编程序就可以进行工程上的复杂计算。Excel相对简单易学,这对于我们增强职校学生动手解决实际问题能力,是非常有实用价值的。

参考文献

上一篇:灿烂的银河作文下一篇:培养学生四种习惯养成教育活动方案