大数据与语料库建设

2024-07-22

大数据与语料库建设(精选8篇)

大数据与语料库建设 篇1

摘要:百年大计,教育为先。信息化校园建设一直以来是教育建设的重点。随着云计算技术、物联网技术等新一代计算机信息技术的产生,高校纷纷依托这些新兴技术建设“智慧校园”。智慧校园的建设是利用新兴计算机技术实现校园数字信息化,为广大高校师生及管理人员提供全方位的智能化校园生活和便捷的综合性服务,能为不同的个体提供更为精确的,与众不同的个性化定制服务,让广大师生充分享受互联网技术给高校的教学、学习、科研、生活和管理带来的进步。然而数据的庞大和复杂性使得“智慧校园”的建设面临着诸多挑战,智慧校园的目标还远未达成。“大数据”技术是一种新型的数据分析技术,能对各类型数据进行深度分析,深度挖掘并能为各项服务应用提供智能决策分析,是 “智慧校园”建设不可或缺的一部分。

关键词:智慧校园;大数据;教育资源;数据处理

中图分类号:tp393 文献标识码:a 文章编号:1009-3044(2016)19-0218-03

近百年里,人类从电气时代步入信息时代后,数据变成为独一无二的传递媒介,在我们的生活中无处不在。随着互联网和物联网的快速发展,人们的一起日常生活都可以被数据化记录。在2009年爆发了全球性的甲型h1n1流感病毒疫潮,令人感到震惊的是,在该病毒爆发的前几周,《自然》杂志上的一篇论文准确地预测了h1n1流感的爆发。这篇由谷歌公司工程师们发表的论文利用计算机技术准确分析预测跨领域疫情爆发的论文,随着疫情的蔓延也引起全世界的关注。人们逐渐意识到,这些曾经静静记录在各种数据库里的数据。开始爆发出惊人的价值和巨大的信息,人类已经迈入一个深度挖掘数据的大数据时代[1]。

我国在高校研究大数据中有着得天独厚的条件,根据教育部2016年4月7日发布的数据显示,2015年我国大学生在校人数达到3700万,全世界第一。全国各类高校达到2852所,位居世界第二。在高校里,学生在校园学习生活的各项活动都会产生大量的数据,教师教学、科研等各项数据,以及高校各项日常教务管理等等,日积月累。特别是近年来倡导和建设的智慧校园,使得高校师生日常学习生活以及教务管理产生了海量的数据。对这些数据运用大数据技术,进一步分析和挖掘,就会对“智慧校园”的发展建设提供更为深远的智能决策。

高校智慧型校园的建设和发展

1.1“智慧校园”的概念

“智慧校园”是校园信息数字化建设结合物联网、云计算、大数据技术等计算机技术而产生的校园建设的新概念。它以物联网为基础、以云计算、大数据为核心打造的集高校工作管理、教育教学、学习科研、校园生活服务等等综合型智慧校园环境,这个一体化环境以各种应用服务系统为载体,将教学、科研、管理和校园生活进行充分融合[2]。在智慧校园里,可以通过手机、电脑等现代化工具,结合校园网络,能极其方便地进行学习、教学、科研、管理、生活、服务等活动,实现校园生活学习的全面信息化,达到丰富校园生活,提高教育、教学、管理效率的目的。

1.2 智慧校园的总体框架

智慧校园建设是将智能化传感器植入和安装到教室、实验室、会议室、图书馆、餐厅和宿舍等地方。并对它们进行一定方式的连接,形成“物联网”,通过服务器和云计算服务中心将“物联网”和“软件系统管理平台”整合,实现全面的信息化智能化,并且采用科学的管理方式对这些信息资源进行处理,为校园师生、工作管理人员提供全方位的数字信息生活环境和方便快捷的办公服务平台。

1.3 现阶段智慧校园建设的不足[3]

智慧校园从概念的产生就受到了国家政策的大力支持,以及各大企业的技术支持,但由于高校本身管理的复杂性,以及各部门之间的通信困难,导致尽管在智慧校园高速发展的今天,也在建设上存在一定的困难和不足。主要表现为:

第一、高校信息的复杂性,使得学校和师生之间的即时信息沟通能力不强。由于高校信息的种类繁多以及学生的自律性等等问题,以致目前绝大多数高校和学生之间的信息沟通还没有全面实现互联网化,甚至还有许多学校仍然通过布告栏或者辅导员、班长通知的传统方式,而且通过移动互联网传递的即时信息也面临信息数量等限制,无法对不同类型学生进行精准发送等诸多问题,造成沟通效率低下。

第二、高校部分机构繁多,信息相对闭塞,智慧管理难。高校机构庞大,部门繁多。各个学院和行政管理部门有各自的网站,甚至有不同软件公司开发的管理系统,难以统一管理。使用不同的平台,导致各类信息资源存储在不同的数据库中,形成诸多“信息孤岛”,数据格式和标准无法统一,从而造成系统中存有大量冗余数据、垃圾数据。第三、大数据缺乏进一步分析和挖掘。由于数据的庞大和复杂性,缺乏有效的系统针对这类数据进行分析和挖掘,例如、学生的图书借阅信息无法跟个性化教学进行关联,学生的消费数据很难跟助学金以及助学贷款进行关联,学生的日常生活行为不能跟毕业方向进行统一分析等等。高校智慧校园的大数据

2.1 大数据的概念

所谓大数据(big data),是指在所涉及的数据资料量规模庞大,无法在响应时间内用人工甚至以往计算机软件进行获取、存储和分析处理的数据集。根据麦肯锡研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合 [4]。通俗来说“大数据”是一个数据体量(volume)巨大,一般要超过10tb,数据类别特别庞多(variety),并且要求处理数据速度(velocity)在合理的响应时间范围内,并且数据的真实性要高(veracity)的数据集合 2.2 大数据分析

大数据分析的不是简单对大量数据信息进行传统式数据处理,而是要深度挖掘和关联潜藏在这些数据里更深层次的信息进行专业性的分析。从技术上来说,大数据分析与云计算技术是相辅相成的。大数据无法依托单独的处理平台进行处理,必须采用分布式架构。利用分布式系统对数据进行数据挖掘。故它必须依赖云计算技术对数据进行存储、分析和处理。

大数据与语料库建设 篇2

在“互联网+”时代下,以下一代通信网络、物联网/传感网、三网融合、大数据和云计算为代表的新一代信息技术正使图书管理工作逐渐向网络化和智能化方向发展。图书管理系统主要功能是对图书的采购、编目、检索、统计和流通等环节进行控制管理。图书管理的关键问题是图书的分类标识和存放位置的确定。在新一代信息技术发展的推动下,图书馆的管理工作必将从网络化信息化模式向着智能化和精细化的角度发展,推动图书管理工作的创新。图书馆的数据必将成为海量般的增长,如何高效应用这些数据来图书管理和建设服务,是当今一个重要的思考问题。

海量图书数据的来源很多,物联网/传感网采集数据、日常工作数据和采用大数据挖掘技术经过数据挖掘和逻辑推理后形成的数据。物联网/传感网不仅能自动感知获取馆藏图书信息,还能对图书、人员进行定位,实时了解图书方位信息,同时还可以对图书环境进行监测。图书馆作为海量信息存储的载体,可运用大数据技术服务,增强收集、分析和提炼海量数据的能力,提升图书资源的智能化管理创新。大数据技术往往与云计算相结合,云计算在图书资源管理建设中存在着加快信息资源的整合与共享、提高信息资源的存储能力、提高服务器运行的可靠性、降低相关成本投入和提高图书馆信息资源的利用率等优势。

本文探讨在物联网/传感网和和云计算技术为代表的新一代信息技术推动发展的背景下,大数据技术助推图书管理工作逐渐向网络化和智能化方向发展。介绍了物联网/传感网和和云计算技术催生海量数据前提下,大数据技术概念、特征和应用等,提出了大数据推动图书馆建设与管理革新。在“互联网+”时代,在图书馆或校园内建立图书馆智能感知系统,为打造结合互联网、大数据和智能智能终端的大系统奠定基础,具有学术意义和参考价值。

2.大数据技术与图书馆管理

2.1大数据技术

大数据技术就是对产生的或存储的大量数据,记性分析和逻辑推理,从海量的数据中找到对用户有价值有意思的数据。图书馆本身就是大数据的存储载体,面临广大的学生、教师和社会用户,如何在海量数据中快速有效地寻求到用户感兴趣的资源正是图书馆大数据技术关心的问题所在。通过大数据技术处理日益增长的数据,更更有效提高图书资源的管理,提高服务质量,具有非常重要的意义。

2.2图书大数据来源

2.2.1物联网/传感网所获取数据

嵌入在每本图书里面的电子标签RFID里面保存有每本图书的元数据。若安装有无线传感器网络节点或物联网终端节点,嵌入在图书资料、图书存放室或图书馆任何一个角落,都在时时采集数据,将时空相关联的数据时时存储在本地或经过简单处理后发送到服务器再进行处理。这是图书大数据一个重要的来源,这包括如下几种类型的数据:图书的元数据、图书定位位置信息、环境检测信息和信息服务数据。这包括大量的原始数据和经过处理后的数据。

2.2.2管理系统工作数据

数据来源的一个很重要的地方是图书管理系统的工作数据。这是图书管理工作所产生的工作数据,既包含新产生的数据,也包含对原始数据处理后的数据。这数据都是数字图书馆管理需要产生的数据。这类数据的特点就是数据规范、统一和整洁,由数字系统产生,直接为系统所用,可以不经处理直接存放到服务器的数据仓库里面。

2.2.3管理服务数据或推理数据

管理服务数据包括从原来感知的原始数据或数字系统产生的规范数据,这类数据经过数据推理或关联后就衍生成了为用户所用的数据,这类数据一般为大数据推理数据,主要关于主动推送服务质量的提高。这类数据更多是在原始数据或在原始数据经过清洗后,或是在日常工作数据的基础上,经过逻辑推理或大数据挖掘等提炼出对用户有用的信息,这个信息就表现在用户感兴趣的、与之相关联的数据。

2.3大数据与图书管理

图书馆存储有的大量可利用数字资源。如何从海量数据中找出用户感兴趣的资源或数据,从提供服务的时效性和质量等方面,对构建现代智慧图书馆提出了较高要求。因此基于大数据的信息检索、逻辑推理、数据挖掘、垂直搜索、语义检索、文本挖掘和智能化处理等功能,等技术能很好地提高数据存储、传输与检索质量。从而能提升图书管理智能化管理工作。

3.大数据技术的提高图书管理质量

3.1大数据技术推动图书管理智能化

大数据技术能推动图书精细化管理水平的提高,主要体现在:提高与用户兴趣相关联的精细化服务质量;提高主动推送式服务质量;提高图书馆管理效益等几个方面:

3.1.1提高与用户兴趣相关联的精细化服务质量。切实体现到以用户为中心,提高服务用户的质量,提高服务内容与用户兴趣的相关度。这是以大数据技术为依托,根据用户的行为数据以及日常图书借阅、浏览和关注的内容,推理挖掘出用户当前关注或以后需要关注的内容,直接通过移动终端将挖掘或推理结果及时直接呈现给用户,体现主动推送式服务和服务质量的实时性。

3.1.2提高主动推送式服务质量。除了上述谈到的主动推送式服务,体现推送的实时性外,更加注重服务的质量。通过大数据技术,切实挖掘出背后深层次的用户需求和兴趣所在。提供与之高度相关联的服务内容,供用户参考决策。

3.1.3提高图书馆管理效益。运用物联网和传感网技术所产生的原始数据,提供了图书和管理者的方位信息,管理者可以将图书放在任意位置,用户通过数据库查找图书,便能获取图书位置信息直接获取,且随时提供在用户所在位置的相关内容。同时可以时时查看管理者的方位信息,了解管理的工作情况,以便更加精准地评价图书管理绩效和工作质量等。

3.2大数据带来图书数据大共享

大数据,必然带来数据的管理和共享的问题。数字系统网络化必然要求图书馆各系统数据之间能共享和访问。图书数据的共享需要体现在图书管理各子系统之间的数据共享、图书系统与校园网络其他系统数据共享,以及与校外图书及相关数据的共享几个方面:

3.2.1图书管理各子系统之间的数据共享。图书采编系统、借阅子系统等系统之间的数据应能共享,系统之间能透明访问,使之每个系统都能再关联其它系统的数据,再结合大数据技术进行逻辑推理和数据挖掘。因为只采用本系统的数据有时候不足以挖掘出高质量的数据来服务用户。

3.2.2图书系统与校园网络其他系统数据共享。图书系统作为校园网系统中的一个部分,应该与校园网其它系统,诸如教务系统、学生管理系统和财务系统等,结合这些数据,能够挖掘出学生更广泛的兴趣和最需要的图书资料所代表的知识。这才能体现出大数据技术的特征。

3.2.3校外图书及相关数据能够相互访问和共享,所体现的基于大数据技术的特征与上述一致。

3.3大数据让图书管理变得简单和规范

可在图书大数据技术基础上进行二次开发,更好满足本单位的具有特色的信息服务。

3.3.1根据大数据技术二次开发的功能要求,增加相应的智能终端设备和云计算信息化设备,从硬件建设角度跟上大数据技术开发要求。

3.3.2根据图书管理要求和任务开展大数据的功能拓展,开发相应的具有大数据处理技术的智能化信息技术模块,将服务范围和领域在时空范围内进行扩大,且提高服务的质量。

总结

大数据技术能提高图书管理质量和效益,拓展图书管理服务的空时范围和具体应用的领域,推动着图书馆的管理向智能化方向建设和发展。本文介绍了大数据技术背景下图书管理工作改进和管理服务质量提升的必要性和紧迫性,介绍了大数据技术概念、特征和应用,重点分析了大数据技术会场下的图书管理创新方式、模式以及内容。提出基于大数据技术的图书智能管理与应用创新。

摘要:传统的图书管理模式已经不能适用当前人们对信息快速获取的需求,新一代信息技术的发展和海量图书数据的增长,促使使用大数据技术来进行图书建设和管理革新。介绍了大数据技术概念和特征,阐述了图书大数据的来源以及如何运用大数据技术提供管理效益和服务质量。大数据技术推动图书管理与创新,使图书管理工作逐渐向网络化和智能化方向发展,具有重要意义。

大数据与语料库建设 篇3

关键字:大数据;数据仓库;教育决策

中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2015)01-0014-02

一、教育的大数据时代

在大数据的时代,各行各业都在谈大数据,它的影响辐射各行各业,并且已经开始在信息产业、交通运输、医疗卫生、食品安全等领域中发挥出重要作用。与此同时,作为面向社会公众的教育行业,无论从教育数据资源的情况,还是对大数据的分析应用需求看,亦进入了大数据时代。

教育管理信息化是《国家中长期教育改革和发展规划纲要(2010-2020年)》和《教育信息化十年发展规划(2011-2020年)》所确定的教育信息化建设核心任务之一,对支持教育宏观决策、加强教育监管、提高各级教育行政部门和学校的管理水平、全面提升教育公共服务能力具有不可或缺的重要作用。教育改革发展涉及面广、难度大,越来越需要准确全面的数据分析和服务作为教育科学决策的支撑。建设国家教育管理信息系统,就是建立涵盖学生、教师、学校资产及办学条件的教育管理信息系统和基础数据库,并以此为基础建立数据分析与科学预测的教育决策服务系统,已成为支持教育改革与宏观决策的现实需求。国家教育管理信息系统的建设,也为教育大数据的积累奠定了基础。

二、教育大数据仓库与数据服务支撑平台

教育大数据仓库与数据服务支撑平台是基于教育服务与监管基本宗旨,统筹考虑教育事业全局,以适应大数据时代教育数据新特征和支撑教育监管和决策的数据分析为出发点,集成大数据思路和传统数据仓库架构,构建纵向覆盖各级教育机构,横向覆盖教育各业务领域的、统一的教育数据信息资源中心,将合适的教育数据资源及时、有效地提供给合适的教育管理、决策者进行教育主题研究分析、评价和预测,促进教育监管与决策更加合理性、准确性、科学化以及智能化,服务于教育事业的改革创新,支撑教育事业智慧化的发展趋势。

1.总体架构

平台的总体架构以教育系统全局为视角,以应用为驱动,基于SOA的理念,运用柔性架构设计思想和分层体系架构,以“满足当前应用、扩展未来需求”为目标,综合考虑大数据时代下新的技术思路和传统数据仓库的优势,采用组件化、服务化的方式,灵活适应功能、分析内容的动态追加和变更,满足系统未来变化的需要。架构的主要内容以及相互之间的逻辑关系如图1所示。

2.主要内容

(1)数据集成整合系统:是将各种数据源中的各种类型的数据按照教育数据资源中心的数据规范要求进行清洗、转换等操作,将符合教育数据资源标准体系要求的数据整合、加载到教育数据资源中心,为后续的统计、分析、挖掘业务提供高质量、规范化的数据资源;

(2)数据管控系统:是对数据资源的集中管控,保证数据的准确性、完备性和安全性。主要建设元数据管理、数据质量管理和数据安全管理,从而达到对教育数据资源中心中数据的管控;

(3)数据治理体系:是对教育数据资产管理行使权力和控制的活动集合,是建立教育数据管理制度、指导教育系统执行数据规划、数据环境建设、数据安全管理、元数据管理、数据质量管理等其他数据管理活动的持续改进过程和管控机制;

(4)数据服务调度管理系统:是整个平台的“发动机”,以教育管理各级行政单位、各级各类学校、科研院所以及社会公众等不同团体在监管、决策、研究分析以及公众数据服务等应用为驱动,将教育数据资源中心数据按照一定的规则,运用合适的智能分析技术,以组件化、模块化、服务性的方式及时、准确、合理地推送给数据分析应用中心,从而直观、友好地展现给不同的监管者、决策者、研究分析人员以及社会公众;

(5)智能分析系统:主要是利用教育数据资源中的数据,通过即席查询、统计报表、多维查询、数据挖掘等技术手段,进行多种教育主题的综合分析以及通过大量数据信息挖掘潜在信息,实现教育的评价与预测等,然后以一种合适的、直观可视化的、有好的方式及时、准确地提供给相关教育监管、决策、研究分析人员以及社会公众,从而实现教育监管、决策以及研究分析的科学化、智能化。

3.预期目标

(1)汇集不同来源的各种教育数据资源,建立起统一、规范的教育数据信息视图,形成覆盖教育各领域的、综合的、面向各种教育主题的教育数据资源中心,实现统一的教育数据管控、治理机制;

(2)形成面向不同主体的、特定领域的教育应用主题的数据集合,按照不同的教育主题进行组织、汇总、管理数据,满足政府(教育行政单位及国家其他行政单位)、学校、社会公众、国际教育团体等不同教育数据应用主体对数据进行分析解读、评价和预测的需求;

(3)建立柔性化的分析性数据应用服务的统一出口,通过灵活的组件化方式,将特定的数据集以合适的数据展示形式及时地、直观地提供给各种不同的教育数据应用领域,满足教育监管与决策的数据服务需求;

(4)建立国家、省两级教育大数据仓库与数据服务支撑平台体系,既实现不同教育级别不同类型教育数据资源的整合与集成,同时又能够满足国家和省级不同的应用需求;

(5)构建一套全面的、标准化的、可操作性的教育数据资源服务保障体系,形成一种长久有效的教育数据资源服务保障机制,可持续性地为教育监管与决策服务。

总之,国家教育大数据仓库和数据服务平台的建设实施,将全面、有效地支撑各级各类教育数据资源的分析,并且使教育监管与决策智能化的能力得到逐步提升。

三、结语

当今各行各业都在大谈大数据的时代,大数据的开发应用已经被许多国家提到国家战略的高度来进行研究。今年初李克强总理所做的政府工作报告中明确提出要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。作为国家公共管理部门,教育如何适应大数据时代,并利用大数据的开发应用推动教育事业的发展、改革与创新,支撑教育事业智慧化的发展趋势,是当前所有教育同仁共同思考的话题。并且随着国家教育信息化战略的实施,大数据的开发应用需求更加迫切,所以我们应当适应大数据潮流,把握机遇,充分利用大数据,结合教育信息化建设现状,构建教育大数据资源中心,有效支撑教育的监管和决策,推动教育的智慧化,从而实现教育的变革。

参考文献:

[1]张春艳.大数据时代的公共安全治理[J].国家行政学院学报,2014(9).

[2]沈菲飞.基于数据仓库的高校学生管理预警与支持系统[J].巢湖学院学报,2007,9(5).

[3](英)Viktor,Kenneth著,盛杨艳,周涛译.大数据时代-生活、工作与工作思维的大变革[M].浙江:浙江人民出版社,2013.

[4]韩蕊.大数据让数据仓库更具有价值[J].互联网周刊,2014(3).

[5]俞燕萍,丁荣涛.基于数据仓库技术的学生就业趋势分析系统设计[J].中国科技信息,2008(7).

大数据助力智库建设 篇4

随着信息技术革命的推动,人类进入大数据时代,大数据已成为最宝贵的生产要素和战略资源。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,目前互联网上90%以上的数据是最近几年才产生的。IBM的研究表明,人类文明所获得的全部数据中,有90%是进入21世纪以后产生的;而到了2020年,全世界所产生的数据规模将达到今天的44倍,对社会各个层面将产生巨大影响。

大数据是支撑

党的十八届五中全会通过的“十三五”规划建议中提出,要“实施国家大数据战略,推进数据资源开放共享”,“提高决策科学化水平,健全决策咨询机制”。大数据研究对智库建设起着重要的支撑作用。

大数据改变智库研究的数据意识。作为信息载体,大数据可以使智库研究者的“数据意识”有所转变,既重视直接数据,也重视关联数据和比较数据,既重视单一数据,也重视多元数据和互动数据,从而有效提高决策前定量分析的可靠性。

大数据技术为智库研究提供强有力的工具支撑。大数据海量、非结构化的特点,决定了智库研究者要对数据进行清洗分析,需要清洗工具、分析工具、存储设备等。随着大数据产业的发展,大数据处理技术日新月异,增强了数据的收集、挖掘、清洗和分析能力,为智库研究提供了强有力的信息处理手段,使大数据分析成为智库研究的重要手段。

大数据应用极大地提高了智库“资政启民”的效率。基于大数据瞬时、即时的特点,智库获知公众意见的渠道会更加便捷,从而极大地提升了智库的决策咨询能力。

国家高端智库的发展

中国人民大学公共管理学院的一项研究表明,中国的决策失误率约为30%,西方发达国家却只有5%左右。这说明,我国智库为政府科学决策提供智力支撑的能力、水平和影响力还不够。从研究成果的质量看,目前国内智库偏重对当前具体问题的临时性、应急性、短期性的研究,普遍缺乏前瞻性、储备性、战略性研究,真正能够对国家中长期发展战略发挥作用的思想性、创新性、系统性的成果不多,基于定性分析的判断多,基于大数据分析的成果少。国家决策越来越重视发挥智库的作用。

国家高端智库的形成。智库在国家决策中的“资政建言”作用是逐步形成的。2012年11月,党的十八大报告提出:“坚持科学决策、民主决策、依法决策,健全决策机制和程序,发挥思想库作用”。这是在党的文件中第一次提出要重视发挥智库的作用。

2013年11月,党的十八届三中全会明确提出,加强中国特色新型智库建设,建立健全决策咨询制度,这是在中共中央文件中首次提出“智库”概念,表明智库建设已成为推进国家治理体系和治理能力现代化的重要组成部分。

2014年3月,总书记在访问德国时强调,中德两国要加强政府、政党、议会、智库交往,把智库合作提升到了国家外交层面,“智库外交”成为我国国际交流与合作的“第二轨道”。

2014年10月27日,中央全面深化改革领导小组第六次会议审议了《关于加强中国特色新型智库建设的意见》,会上总书记强调,我们进行治国理政,必须善于集中各方面智慧、凝聚最广泛力量,要重点建设一批具有较大影响和国际影响力的高端智库,重视专业化智库建设,重点围绕国家重大战略需求开展前瞻性、针对性、储备性政策研究。这表明,党和政府对智库发展有了新的要求,要建立一批为国家决策服务的高端智库。

国家高端智库的作用。2015年1月,中共中央办公厅、国务院办公厅印发了《关于加强中国特色新型智库建设的意见》,文件提出,重点建设一批具有较大影响力和国际知名度的高端智库,充分发挥中国特色新型智库咨政建言、理论创新、舆论引导、社会服务、公共外交等重要功能;并明确国家专业化高端智库要为决策提供咨询,要在理论上进行探索,要有效引导舆论,服务社会公众,发挥国际交流作用。

2015年10月29日,党的十八届五中全会正式提出“实施哲学社会科学创新工程,建设中国特色新型智库”。

2015年12月1日,国家高端智库建设试点工作会议明确提出高端智库的基本职责是服务国家决策,围绕国家发展战略,提升咨政建言能力,以科学咨询支撑科学决策。高端智库应在阐发中国理论、贡献中国智慧方面走在前列;要树立高度的理论自觉和理论自信,保持应有的学术追求和学术担当,全面深入地总结中国实践、提炼中国经验,用中国理论回答中国问题,用中国话语解读中国道路,更好地在国际上发出中国声音,让世界真正读懂中国,为人类文明进步提供中国思想、中国价值。

2016年5月17日,总书记在哲学社会科学工作座谈会上提出,智库建设要把重点放在提高研究质量、推动内容创新上;要加强决策部门同智库的信息共享和互动交流,把党政部门政策研究同智库对策研究紧密结合起来,引导和推动智库建设健康发展、更好发挥作用。

国家高端智库的特点。《关于加强中国特色新型智库建设的意见》中明确提出,高端智库应是“国家亟需、特色鲜明、制度创新、引领发展”,就是要坚持高端定位,有突出的专业特色,有较强的理论和政策创新能力,以高质量原创性的研究成果引领经济社会发展。

国家高端智库要为决策提供智力服务,必须具备5个特点:一是围绕政府决策,提出可操作的建议,研究战略性、全局性、前瞻性、储备性的政策问题;二是引导社会舆论,发挥“资政启民”作用,阐发中国理论、贡献中国智慧,解读宣传国家政策,引导社会预期;三是搭建国际交流平台,开展智库研究合作,配合国家对外战略开展对外交往活动,在世界舞台上能更加鲜明地展现“中国思想”,响亮地提出“中国主张”,及时地发出“中国声音”,能在国家战略决策中,提出具有独创性、重要性的知识贡献、思想贡献;四是具有一支国际视野高水平的专家团队,能在国际智库思想交流中提供中国的思想和智慧;五是有完善高效的运行机制,为智库研究提供内部管理的制度保障。

提供精准依据

决策咨询研究需要大数据分析的信息化技术作支撑。《国家高端智库管理办法(试行)》对高端智库的信息化建设提出了明确要求,一要具有功能完备的信息采集分析系统,拥有专业资料室和网站;二要利用大数据、云计算等技术,加强专业数据库、案例库和信息系统平台建设,为决策咨询研究提供必要的信息和技术保障。

智库信息化建设需要专业化的大数据服务。信息系统、专业数据库、大数据分析是专业高端智库开展问题研究分析的基础工具,是结合定量分析与定性分析为政府决策提供科学咨询和政策建议的信息基础。大数据时代,专业化分工使智库可以不必自己专门建设所需要的数据库、网络信息系统,进行大数据分析,可以将需求外包给专业数据信息服务公司和网络服务公司,而智库应将精力更多地专注于决策咨询服务上。

大数据法律保护制度建设探究论文 篇5

大数据包括图像、语音、数据、文本等多种形式,因此,只要数据通过条理或者系统的方式编排整理,并且由独立的材料、数据以及作品组成,都属于法律保护的对象。大数据的具体保护范围应包括:第一,针对商业秘密进行保护。是指经权利人采取保密措施、具有实用性、能为权利人带来经济利益、不为公众所知悉的经营信息、技术信息。第二,针对签订授权的数据进行保护。在数据通过合同授权的情况,如果存在有违反合同约定内容的情况,那么必须要给予相应的保护。第三,针对不正当使用大数据进行保护。在竞争中,大数据的使用必须以诚信、公平、平等为原则,如果大数据使用者对其他经营者造成损害,扰乱了社会经济秩序,那么法律就会针对不正当使用者进行制裁,同时给予受损害保护、补偿。第四,针对个人信息的保护。个人信息具备隐私性,法律有义务保护个人隐私数据不被他人利用,在互联网时代,个人信息很可能会在网上留下痕迹,此时法律将起到至关重要的作用。

3.2.2大数据运用权利内容的确定

大数据运用权利内容,具体可以包括技术保护权、提取、再利用权,制作者维护数据信息内容完整、准确、真实权利,还有适当引用与教学研究需要的权利、新闻报道、政府行为需要的权利。第一种类型是技术保护权。对于数据制作者来说,技术保护权不可或缺,将大数据分为实质性内容和非实质性内容进行法律保护,是确保数据公平、效率的前提与基础。针对于实质性数据与非实质性数据的判断,要以数据制作者市场利益受到损害的程度为依据;以数据内容再利用的地理范围、程度、持续时间、数量或者被提取的次数为依据;以数据使用者普遍看法为依据。第二种类型是提取权。首先,实质性部分具体是指将数据内容全部或者实质性内容从一个媒介转移到另一个媒介。作为数据权属拥有者,其有权利限制他人在未经许可的情况进行数据信息的转移。因此,可以说未经数据拥有者授权的情况下,影印行为、对传统非电子数据库的扫描行为、网上下载行为、窃取信息的行为,都将侵犯数据拥有者的提取权行为。其次,非实质性部分是指针对于没有实质性内容的数据信息,可以系统、重复的提取,但如果对数据制作者合法权益造成损害或者对数据正常利用起冲突,将受到法律的制止。第三种类型是再利用权。首先,实质性部分具体是指权利主体享有的,禁止用户通过利用网络手段、发行、出租、展示、演出以及放映以及其他任何形式,向公众提供数据的实质部分甚至全部内容。其次,非实质性部分,对于非实质性的数据信息,可以系统、重复的再利用,但如果对数据制作者合法权益造成损害或者对数据正常利用起冲突,将受到法律的制止[4]。第四种类型是维护数据内容完整、准确、真实的权利。具体是指行为人的行为与数据权属与拥有者的正常利用相冲突,或者损害数据拥有者的合法利益,权利人则有权禁止他人再利用或者重复系统的摘录数据内容。第五种类型是适当引用与教学研究需要的权利。为了说明教学、批评、评论、举例、解释、说明或者分析目的,另外,为研究、科学等非商业性目的,摘录、传播数据信息,同时没有对数据相关市场造成损害是受法律保护的。第六种类型是新闻报道的权利。以新闻报道为目的,向公众提取、提供数据内容,但要保障适时性,如果报道的数据内容对市场竞争造成影响或者对数据拥有者造成损害,则将受到限制。第七种是政府行为需要的权利。政府如果有情报活动、保护、调查的需求,则拥有提取传播的权利。

3.2.3大数据制作者义务内容的确定

本着权利义务对等的原则,数据制作者需要承担两项义务:第一,作为数据制作者其有义务对数据内容的完整性、准确性以及真实性进行维护。第二,数据制作者必须保证数据内容不虚假,如果数据制作的信息内容缺乏承诺的完整性、准确性以及真实性,并且对他人造成了财产损失甚至人身损害,此时制作者需要承担更换、修改或者退货的义务。

3.2.4大数据法律权利保护的条件

是否为数据权属拥有者是有前提条件的,具体条件是必须在数据制作中有实质性投入,如投入金钱、时间,或者是通过正常法律途径转让到自己手中的数据。具体是指,数据权属拥有者在数据内容的编排、制作上构成独创性数据信息,此时可以给予相应的法律保护,另外,对于不构成独创性的数据信息,只要权属拥有者能够证明其数据是通过正常渠道、有实质性投资,那么其同样拥有受法律保护的权利。然而对于实质性投资标准的判断,可以有三种行为为判定标准:第一,向公众提供或者系统、重复的复制数据信息的非实质性内容,但是对数据制作者的合法权益有损害或者与数据的正常利用相冲突。第二,以在线传输、出租、发行等方式向公众提供质量和数量上为实质性内容或者数据全部内容的行为。第三,在质量和数量上为实质性内容或者暂时和永久复制数据全部内容的行为。总之,在上述条件下才给予其著作权保护,这便是大数据权利保护的条件。

3.2.5大数据法律权利保护期限

针对大数据法律权利制定保护期限,主要是为了避免私人对信息的垄断,对于超过保护期的数据,公众有不受限制自由使用的权利。对于数据信息法律权利保护期限的具体时间,需要根据实际的数据内容评判,如果是数据库中的信息,国际上的保护期限为。因此,我国在保护期限的制定上,可以借鉴国际上的做法。在保护期间内,如果数据属权拥有者对数据信息进行修改、增减或者重新制作,那么数据保护期限需要重新起算。

3.2.6侵害大数据法律权利的责任形式

作为数据权属拥有者的合法权益,必须在法律的保护之下,制止侵害数据保护权利的所有行为,提高不法分子的违法成本。为了确保大数据法律保护的有效性,保障知识产权法律制度的统一性,在大数据法律保护制度建设中应该明确规定侵权人所应承担的法律责任。对于侵害大数据法律保护权利者所应承担的责任,可以参考著作权法的相关规定,具体可以划分为刑事责任、民事责任,具体的形式包括:赔礼道歉、停止侵害行为,如果造成权利人损失的,需要承担相应的赔偿,损失金额可以参照许可使用费来确定。性质更为严重的,造成权利重大损失的,可以参照刑法关于侵犯知识产权罪的相应制裁和处罚规定[5]。大数据对人们的思维模式以及日常生活方式有着重大影响,构建大数据法律保护制度是提升我国综合实力、提高大数据产业发展、解决日渐突出的数据纠葛的基本要求,对我国法律体系的完善至关重要。

参考文献:

[1]隋映.基于大数据分析的云安全管理系统设计[J].电子世界,(10):23.

[2]齐爱民,盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报,2015(1):20-22.

[3]宋曦.大数据时代的个人信息保护机制研究[D].重庆:重庆大学,.

[4]刘斌.大数据时代金融信息保护的法律制度建构[J].中州学刊,2015(3):54-59.

大数据与语料库建设 篇6

项目

资金申请报告

编制单位:北京智博睿投资咨询有限公司

《国家发展改革委办公厅关于请组织申报大数据领域创新能力建设专项的通知》下发。《通知》明确了相关专项建设的目标、内容和重点,将围绕大数据基础技术和应用技术两个维度,组建13个国家级大数据实验室。

《通知》明确专项目标,未来2-3年,将建成一批大数据领域创新平台,为大数据领域相关技术创新提供支撑和服务。以推进经济发展方式转变为着力点,通过建立和完善大数据领域的技术创新平台,集聚整合创新资源,加强产学研用结合,突破一批关键共性技术并实现产业化,促进大数据产业的快速发展,为培育和发展战略性新兴产业提供动力支撑。

《通知》指出,围绕转型内容和重点将组建13个国家级大数据实验室,分别是:大数据系统计算技术国家工程实验室、大数据系统软件国家工程实验室、大数据分析技术国家工程实验室、大数据协同安全技术国家工程实验室、智慧城市设计仿真与可视化技术国家工程实验室、城市精细化管理技术国家工程实验室、医疗大数据应用技术国家工程实验室、教育大数据应用技术国家工程实验室、综合交通大数据应用技术国家工程实验室、社会安全风险感知与防控大数据应用国家工程实验室、工业大数据应用技术国家工程实验室和空天地海一体化大数据应用技术国家工程实验室。

具体要求

(一)请相关主管部门按照《国家工程实验室管理办法(试行)》(国家发展改革委令第54号)、《国家高技术产业发展项目管理暂行办法》(国家发展改革委令第43号)和《国家发展改革委关于实施新兴产业重大工程包的通知》的要求,组织开展项目资金申请报告编制和申报工作。

(二)主管部门应结合本部门、本地区实际情况,认真组织好项目资金申请报告编写和备案工作(暂不需提供落实环评、节能、土地等建设条件的相关文件),并对其真实性予以确认。同一法人单位可选择其中1个实验室方向进行申报;同一主管部门对同一实验室方向,择优选择1个项目单位申报。项目主管部门和项目申请单位应承诺予以配套资金或政策支持,保障实验室建设和运行所需费用,促进相关产业的创新和发展。

(三)为构建创新网络,申报单位需承诺,若通过评审成为以上大数据领域创新平台的承担单位,将参与构建创新网络,以加强创新平台之间的协同。

(四)项目申报方案需充分体现产学研用等单位的紧密结合,并进行多个单位实质性联合共建(联合共建单位原则上不超过5个),建设内容和地点应相对集中;鼓励工程实验室建立技术成果应用示范基地,优先支持跨部门、跨区域、跨行业的具有全国性示范效应平台建设。

(五)该批国家工程实验室原则上将通过竞争择优确定(原则上支持本领域排名第一的单位),鼓励由企业牵头承担实验室的建设任务;并优先支持该批国家工程实验室承担国家大数据综合试验区促进大数据发展行动的相关任务和项目。

(六)请主管部门在2016年10月10日前,将审查合格的项目资金申请报告一式2份报送我委(双面打印);同时请提供电子文本和有关附件等材料。

特此通知

国家发展改革委办公厅

2016年8月26日

报告目录

一、大数据分析技术国家工程实验室项目摘要

二、大数据分析技术国家工程实验室项目建设的依据、背景与意义

1、大数据分析技术国家工程实验室项目建设的依据

2、大数据分析技术国家工程实验室项目建设背景、意义(1)大数据分析技术国家工程实验室项目建设背景(2)大数据分析技术国家工程实验室项目建设意义

三、大数据分析技术国家工程实验室技术发展与应用前景分析

1、国内外技术状况与发展趋势预测分析

2、技术发展比较

(1)本单位技术水平优势和劣势(2)关键技术突破点

四、主要方向、任务与目标

1、大数据分析技术国家工程实验室主要发展方向

2、大数据分析技术国家工程实验室的主要功能与任务

3、大数据分析技术国家工程实验室拟进行技术突破的方向

4、大数据分析技术国家工程实验室的近期和中期目标(1)近期目标(2)中期目标

五、组织机构、管理与运行机制

1、建设大数据分析技术国家工程实验室项目法人单位概况(1)法人单位概况(2)合作单位概况

2、大数据分析技术国家工程实验室的机构设置与职责(1)机构设置(2)工程实验室职责(3)实验室主任职责(4)实验室主任工程师职责(5)实验员岗位职责

3、主要技术带头人、管理人员概况及技术团队情况

4、运行和管理机制

六、大数据分析技术国家工程实验室建设方案

1、大数据分析技术国家工程实验室建设规模

2、大数据分析技术国家工程实验室建设内容(1)主要内容(2)设备方案

3、大数据分析技术国家工程实验室建设地点

七、节能及环境影响

1、节能分析

(1)大数据分析技术国家工程实验室项目能耗指标(2)大数据分析技术国家工程实验室项目节能措施

2、环境影响(1)环境依据(2)环境和生态现状(3)生态环境影响防护措施

八、大数据分析技术国家工程实验室项目实施进度与管理

1、建设周期

2、大数据分析技术国家工程实验室项目实施进度安排

3、建设期的项目管理

九、投资估算及资金筹措方案

1、大数据分析技术国家工程实验室项目总投资估算

2、建设投资估算

3、分年投资计划表

4、大数据分析技术国家工程实验室项目资金筹措方案及其落实情况

5、国家安排资金的具体使用方案

十、大数据分析技术国家工程实验室项目经济和社会效益分析

1、初步经济效益分析(1)基础数据及参数选取(2)财务效益与费用估算(3)财务分析(4)不确定性分析

2、社会效益分析

十一、大数据分析技术国家工程实验室项目风险分析

1、技术风险

2、技术应用及市场风险

3、其它风险

十二、相关文件所要求的附件、附图、附表

1、财务分析附表; 1.1财务评价指标汇总表 1.2建设投资估算表(概算法)1.3流动资金估算表

1.4项目总投资使用计划与资金筹措表 1.5营业收入、营业税金及附加和增值税估算表 1.6总成本费用估算表(生产要素法)

1.7大数据分析技术国家工程实验室项目投资现金流量表 1.8大数据分析技术国家工程实验室项目资本金现金流量表 1.9利润与利润分配表 11.10财务计划现金流量表

2、相关企业营业执照;

3、发明专利

4、产品图片

大数据与语料库建设 篇7

随着2012年我国教育管理部门出台《教育信息化十年发展规划》的出台, 将我国教育事业的发展方向定位信息化发展方向, 对我国信息化技术与教育教学之间的深度融合提供了一定的指引作用。而在教育事业信息化建设的过程中, 数字校园是基础内容, 而我国在经过几年的发展之后, 在数字化校园建设方面也逐渐取得了更多的进步, 在教学过程中更多的融入了信息化技术。

二、大数据概述

对于大数据, 到目前为止世界范围内都没有得到较为明确的定义, 目前所说的大数据就是指巨量的资料信息, 也就是说涉及的资料数量是非常庞大的, 无法使用目前所应用的主要软件对其在较短的时间内获取、管理以及处理, 从而成为企业发展过程中所能够直接使用的资讯。 大数据的主要特点也就是信息量巨大, 而对这种特性主要就是从三个词语来描述:规模性、多样性以及高速性。所谓的规模性就是指大数据的规模是非常庞大的;多样性就是说数据的类型是非常多的, 主要包括结构化数据、半结构化数据以及非结构化数据;而高速性就是指时效性, 能够在较短的时间内对信息进行处理, 而处理结果的价值与处理时间也是呈正比例关系的。

国内外目前针对大数据已经做出了很多的研究, 研究的方向也是多种多样的。而这一概念是在2008年在麦肯锡、达沃斯等论坛上提出来的, 美国政府也紧接着就提出了大数据研究与发展倡议, 这是在信息科学领域中的一个重要的发现与研究。在我国对大数据的研究与发达国家相比较是存在着一定的滞后性的, 但是我国相继就建立了相应的研究小组, 对大数据的研究投入了非常多的精力, 所以取得的成果也是较为显著的。在大数据背景下, 数据的来源是非常广泛的, 需要挖掘与存储的信息量将是非常巨大的, 对数据展现的要求也是相对较高的。在大数据的存储以及分析方面的关键技术主要就是包括:存储技术、并行处理引擎、大数据挖掘技术等等。

随着大数据时代的到来, 为生活以及科学发展带来了非常多的变化, 这些变化主要就是可以总结为四个方面:第一就是大数据作为一种新型的概念, 成为了基础资源;第二大数据的来源是非常广泛的, 对传统数据库中的需求缺陷进行了有效的弥补;第三是需要相应的研发出性能强大同时能够较为容易的进行使用的存储、分析与处理系统;第四是数据更加的具有客观性, 主要就是由于数据在采集的过程中是无微不至的, 同时在时间上也是就有延续性的, 而且数据是非常多的, 所以使得数据更加具有客观性。大数据的这些特点以及所作出的改变, 决定了大数据在数字校园中的是具有非常高的应用价值的, 实现大数据与教学事业之间的有效融合将为教育事业的发展带来强有力的促进作用。

三、大数据背景下数字校园的建设目标

由于大数据理念的更好发展, 在进行数字化校园建设的过程中需要将更多的精力放在数据积累方面, 主要就是指进行更多具有价值的数据的采集与设计, 同时提高数据开发与挖掘的能力。所以在大数据背景下, 进行数字化校园的建设目标主要就是表现为以下几个方面:

(一) 优化大数据传输基础网络建设。在进行网络接入建设的过程中, 最为重要的就是数据传输。教学事业信息化发展将推动信息化技术以及大数据在教学以及学习过程中发挥更加重要的作用, 对食品课程的需求也将发生显著的提高。所以在进行网络建设过程中, 需要选择最为合理的综合布线技术以及设备, 为大数据更好地发展提供打下更好地基础。在进行数字校园网络建设的过程中, 对数据传输模式进行科学合理的选择, 其中FTTO模式是较为常用的一种数据传输模式, 主要就是由于这种模式速度较快, 能够节约成本与能源, 有效减少电磁的干扰。

(二) 完善数据管理制度。在进行数字校园建设过程中, 需要对采集与处理的数据进行明确界定, 包括数据种类、数据采集方法、数据存储方法、数据处理过程等等, 这些内容都需要通过数据管理制度的方法对其进行规定。想要保证数字化校园建设能够科学合理的进行, 对数据管理制度进行完善是非常重要的。

(三) 对数据资源进行完善。最大限度的将校园中的各个环节实现数据化, 包括人、财、物、学、管等多方面, 提高校园进行数据采集以及处理的能力。在传统的数据系统中, 各个环节之间的数据都是相互独立的, 而想要真正实现校园信息化, 就需要将这些独立的部分进行联系, 从而使得数据采集的资源更加广泛。

(四) 进行数据分析与应用能力建设。我国目前的数字校园建设过程中, 还并不具备大数据分析功能, 或者仅仅是能够进行小的传统数据分析, 对于大数据之间的分析与处理能力还是相对较为低下的, 所以想要保证数字化校园的有效建设, 加强数据分析以及应用能力是非常关键的。

四、大数据背景下数字校园建设的内容

随着数字化校园建设的逐渐深入, 在数字校园网络建设的过程中涌现出了更多新的理念以及建设内容。在进行数字校园建设过程中, 不仅仅需要对原有的设施进行完善, 同时还需要实现多方面的建设, 主要建设内容为以下几个方面:

(一) 信息化支撑环境的建设。所谓的支承环境就是指大数据传输的基础网络, 需要保证这个网络能够与校园中的各个设备进行有效的连接, 实现对各种大小数据的传输。在未来的数字校园网络建设中, 应该是要实现无线网络覆盖的。

(二) 进行绿色节能数据系统建立。绿色节能应该是作为信息化校园建设的方向。在进行数据系统建设中, 主要的内容就是包括路由、 交换、存储、应用等设备, 而运行系统主要包括安防监控系统、消防系统以及防雷系统等等。

(三) 云服务平台建设。想要保证大数据背景下的数字校园的正常建设, 实现云服务平台的建设是非常关键的。主要就是由于云服务平台能够提供三个方面的服务:Iaa S、Paa S、Saa S。通过云计算技术能够实现对原有设备的整合, 使得其应用价值得到有效提升。从而为师生提供更加全面的服务。在进行云服务平台建设的过程中, 可以使用开源软件。通过云平台的运用能够使得校园网络更加健壮, 并且能够实现在任何时候都进行数据的收集。

(四) 大数据标准体系。对于数字化校园网络建设来说, 标准体系并不是像一个文档那么简单, 对大数据标准体系需要投入更多的精力, 对大数据的标准体制层面进行更好地建设, 从而保证数字校园的质量与水平得到有效的提高。

(五) 大数据处理与分析系统。在大数据背景下, 进行数字校园网络建设的核心主要就是分为两个部分:首先就是将大数据分析结果在教学与科研过程中进行充分研究, 从而通过数字化系统对教学效果进行有效的提高;其次就是通过大数据分析结果对教育信息化发展起到积极的作用, 在进行决策的过程中, 与大数据分析结果进行综合考虑。

(六) 大数据采集系统建设。大数据采集系统主要可以分为两个部分, 也就是硬件与软件, 其中软件能够对硬件进行控制。硬件主要就是包括计算机机房、电子阅览室、视频监控、存储系统等等, 而软件就是指虚拟化的软件, 包括教务管理、资产管理、科研管理等多个内容。

大数据技术也在发生着不断的更新与进步, 所以在进行数字化校园建设的过程中, 不仅仅局限于以上几个方面, 同时还需要与技术的进步进行相应的更新。此外, 除了技术方面的工作内容, 还需要包括组织制度、管理人才培养、数字化学习资源等等方面的建设。

五、数字化校园建设过程中存在的问题

由于我国信息化建设仍然是存在着一定的滞后性, 所以在进行数字化校园网络建设的过程中是存在着一定问题的主要表现为以下几个方面:

(一) 忽视数字化校园网络建设。学校管理人员对大数据的重要作用没有正确的认识, 在数字化校园建设中处于消极态度, 所以教学中的信息化建设是较为落后的。

(二) 缺少从数据中发现价值的能力。在教学过程中, 如何采集数据、如何分析数据、如何充分利用数据等等在实际的数字化校园网络建设中都是发挥着重要作用的, 但是我国在这些方面都还存在着较多的问题, 尤其是对数据中的有效价值进行发现与总结是目前亟待解决的问题。

(三) 数字化校园网络资源建设是封闭的。目前很多学校都意识到了大数据的重要性, 同时在数字校园建设中也投入了较多的精力, 但是资源建设仍然是处于封闭状态的, 也就是说只有开放的资源才能够获得更多的数据, 这个问题的存在导致了资源很多都是相似的, 无法形成学校各自的特色。

数字化校园网络建设中会出现上述问题, 最为主要的原因分为几点:首先就是目标定位是相对较低的, 对数字化校园网络所能够取得的效果没有更多大胆的设想;在进行数字校园网络建设时, 没有创新意识, 更多的是对国外的技术进行借鉴, 没有与本身的实际情况进行综合分析。

六、大数据背景下数字校园的建设策略

通过上述的内容, 对数字化校园建设过程中的主要内容进行了分析, 所以在进行数字化校园网络建设时, 需要与这些内容进行综合考虑。提出相应的策略:

(一) 尽可能多的实现各个环节的信息化。所谓的大数据就是说数据的数量以及来源都是非常广泛的, 而想要达到这样的目的, 就需要对校园中的各个部门进行相应的开发, 从而实现管理系统、科研系统、 教学系统等多个方面的信息化, 进而能够实现最大范围的采集信息。

(二) 对教育信息化建设中的各种需求进行满足。随着现代化教育的发展, 在教学过程中的要求也是越来越高的, 所以在进行数字校园建设时, 需要满足教学过程中的各种需求。首先就是教育信息化方面的需求, 提高教学效率以及效果;其次就是需要满足大数据背景下的对信息随时对地的需求, 从而实现移动学习与终身学习。

(三) 将建设与改造同步进行。数字化校园网络建设过程中, 建设要求以及建设内容都会随着科学技术的发展而改变, 所以在建设时, 不仅仅需要在新的设施建设以及设备更新中投入更多的精力, 同时还需要对原有的设备、设施以及网络系统进行相应的改善, 从而保证校园网络系统能够满足不同时期用户的需求。

(四) 通过新技术进行节能数字校园的建设。在各个行业中都逐渐将节能作为发展的基础, 同样在进行数字化校园建设的过程中, 也需要考虑节能问题, 对运营成本进行有效控制, 提高运行的效益。在这个过程中, 需要应用新的技术, 提高信息化系统的工作效率, 对人才培养模式进行创新, 进行新型人才的培养。

(五) 对资源进行最大限度的开放。我国在精品视频公开课以及其他公共资源中都投入了更多的精力, 这是保证我国教育事业不断发展的基础。也就是对需要将更多的资源向更多的用户开放, 从而保证数字校园网络能够满足更多人的需要。同时实现资源更大限度的开放也能够更好地实现大数据的收集。

七、结语

随着大数据时代的到来, 为我国教育事业的发展提供了机遇, 同时也有着更多的挑战。想要保证我国教育事业得到更好地发展, 就需要对存在的机遇与挑战进行分析与总结。对机遇进行充分的利用, 而对挑战进行相应策略的制定。对于我国来说, 信息化技术正处于爆炸式增长的状态, 将信息化技术与教育事业进行充分的融合, 从而保证我国的教育事业能够平稳快速的向前发展。

摘要:随着科学技术的发展, 数字化技术在几乎所有行业中得到了有效的利用, 在教育行业中同样也不例外, 在我国教育事业中进行信息现代化建设是非常必要的。在大数据背景下, 物联网、虚拟化应用以及云计算等技术都开始在数字化校园建设过程中发挥重要的作用, 使得教育数据来源得到有效的扩展。在本次论文中, 将主要对大数据概念进行论述, 对教育大数据的来源以及应用价值, 最后提出我国数字校园建设过程中的对策, 从而促进信息技术与教育教学之间的有效融合。

关键词:大数据背景,数字校园,建设目标,内容,策略

参考文献

[1]南国农.我国教育信息化发展的新阶段、新使命[J].电化教育研究, 2012, (12) :10-12.

[2]吴建平.清华大学校园网——TUnet概况[J].电信科学, 2013, 10 (5) :39-45.

[3]蒋东兴.清华大学新一代数字校园建设规划与实践[J].厦门大学学报 (自然科学版) , 2013, 46 (增刊2) :173-178.

[4]黄荣怀.智慧校园:数字校园发展的必然趋势[J].开放教育研究, 2013, 18 (4) :12-17.

[5]吴颖骏.浙江大学:基于“云”的智慧校园[J].中国教育网络, 2013, (11) :25-26.

[6]严大虎, 陈明选.物联网在智慧校园中的应用[J].现代教育技术, 2011, 21 (6) :123-125.

[7]何克抗.我国教育信息化理论研究新进展[J].中国电化教育, 2011, (1) :1-19.

[8]大数据[EB/OL].http://zh.wikipedia.org/wiki/大数据, 2013-06-28.

[9]李志刚.大数据—大价值、大机遇、大变革[M].北京:电子工业出版社, 2012.

英语口语教学语料库的建设与应用 篇8

关键词:英语口语教学;语料库;语料库语言学

语料库语言学(corpus linguistics)是20世纪的新兴学科,是兼顾结构主义和功能主义研究的中间形态。目前国外已经建成了数以亿计的大型语料库,从类型上分为单语和双语,从领域上分为报刊、文学、军事、经济等专门语料库。我们逐渐达成了共识,那就是“以计算机存储的语料为基础的语言研究方法,是当今语言学任何分支学科研究的一种自然的、现代化的甚至是不可或缺的辅助手段”。虽然自从有外语教学以来就一直强调口语教学,也不断有文章论述口语课堂的教学法,诸如自主学习、师生互动到学生是课堂的主体、多媒体辅助教学等,但实际收到的效果各有不同,一方面与教师的水平和教学设备有直接关系,另一方面则归因于学生自身的积极性和素质的高低。授之以鱼不如授之以渔,我们秉承教学之中以培养能力為首要目标,在脱离教师的情况下,学生可以自己建立学习目标、寻找学习资料、循序渐进地自我训练,从而实现时时学习、终身不断完善自己的目的。

在此只是指出我们在当前英语口语教学实践中的一种状况,在分析了现存的一些问题之后,发现语料库自身的一些优势似乎正是口语教学的症结所在,正如M.Mc-Carthy(2006:48)所认为的,“语言是在社会语境中习得的,语言习得是社会化和文化适应的过程”。我们尝试自建语料库并用于英语口语教学,正如McCarthy(2004:1—2)指出的语料库可以解决的一些问题:

What are the most frequent words and phrases in English?

What are the differences between spoken and written English?

What tenses do people use most frequently?

What prepositions ibllow particular verbs?

随着以上问题的指引,我们接下来进一步深入语料库与语料库语言学的一些研究现状,我们的重点不是介绍具体的理论问题,而是通过对目前语料库研究内容的了解指导我们去自建口语教学语料库,从而把语料库应用到课堂教学,在丰富教学手段的同时达到提高教学效果的目的,最终实现学生有意识地自主学习。正如D.Biber等(2000:233)所言:“把语料库的方法用于教学为语言使用提供了一个新的研究视角。”

一、语料库与语料库语言学

语料库是语言材料的仓库,是大量真实语境中使用的语言数据的集合,“如果以在真实语境中使用的语言为分析的基础,那么势必会对语言学研究有益”。未经过加工的语料库为生语料库,而经过词汇标注、句法标注、语义标注等加工之后的语料库则成为熟语料库,相对于生语料库来讲,熟语料库在相关软件工具的辅助之下就具有了广泛的用武之地,成为语料库语言学的操作对象,可用于词典编撰、语言教学、传统语言研究、基于统计或基于实例的自然语言研究等。基于语料库的方法是现代语言学研究中继内省法、诱导法之后的第三种方法,Gena.R.Ben-net(2010:7—8)指出了语料库方法的特征:一是一种分析自然语言实际应用中的真实模式的经验方法;二是把按照一定原则采集的自然文本作为分析的对象和基础资源;三是借助计算机程序实现扩展性的分析;四是一种兼顾质的原则和量的原则的分析技术。

世界上第一个大规模的英语语料库是建于1961年的BROWN CORPUS,达到了100万词。时至今日,语料库的规模和数量急剧增长(如The Cambridge International Cor-pus达到了10亿词汇),语料库语言学在二语教学和研究中作出了突出的贡献,许多著名的学者都曾经或正在致力于语料库语言学研究,如Leech,Biber,等。我国国内出现了大规模的语料库建设并且伴随着利用语料库进行的研究,英语界如桂诗春教授的“中国英语学习者语料库”就是关于中国英语学习者的作文语料,共100多万词,并标注了学生在作文中常见的62类错误,错误类型包括了拼写错误、词语搭配错误、词语用法错误以及语法结构错误等,这对于指导中国学生学习英语起到了积极的作用。

限于篇幅,我们不再赘述语料库的理论问题,重点是个人小型口语教学语料库的建设和应用方面,希望能通过拙文起到抛砖引玉的作用,使语料库能在口语教学中发挥应有的效果。

二、个人口语教学语料库的建设

语料库是按照特定目的收集起来的真实文本的集合,用于定量分析语言的使用信息,从而辅助直觉判断,所以根据建库的目的我们就区分出了不同的语料库类型,如一般语料库、专业语料库、学习者语料库、历史语料库、平行语料库、对比语料库、教学语料库(pedagogic corpora)等。一般语料库包含各种语言变体,可以在一定程度上代表语言的全貌,如BNC(the British National Cor-pus),学习者语料库如ICLE(the International Corpus ofLearner English),专业语料库如MICASE(the Michigan Cor-pus of Academic Spoken English)等。

在此,我们需要区分两个概念,即口语语料库和我们所指的个人口语教学语料库。在学术传统意义上,口语语料库指的是对口语特征进行深度研究的专门语料库,如语音语调的规律、语音合成等,以真实口语对话的采集和语音转录为内容。个人口语教学语料库则以教学为首要目标,意在为口语课堂教学提供学习的语料,同时培养学生的学习敏感性和对学习材料的把握能力,根据自身学习的状况建立个人语料库,成为所能收集到的有关主题的文本总集。虽然在规模上远未达到一般研究性语料库的要求,但是对个人学习却有着超出一般参考书的价值。下面我们介绍个人小型语料库建设的一些情况。

首先,语料库建设中涉及的主要问题包括:设计和规划;语料的采集;语料的加工;语料管理系统的建设;语料库的应用。

现在我们接触到的语料库都是具有一定词汇数量的电子文本集,如果达不到一定的规模,那么语料库就没有多大的说服力,因此,一个成功的语料库除了大量的生文本,还需要进行复杂的标注以及语料库检索和软件工具的设计,这除了要求具有语言学知识,还需要编程和软件设计等计算机知识和网络知识,这是一个集体性的工作,往往只凭个人的努力很难做到。但是,我们没有必要就此放

弃对语料库的使用,本文所谈的英语口语教学语料库,就是利用现有的硬件,如个人计算机、扫描仪,语料库软件工具,如TextSTAT,WordSmith Tools,MonoConc Pro,CLAWS4等,網络资源、图书、杂志、报纸等,尝试建设个人小型的语料库,把已有的资源整合化处理,实现最优化利用。

根据口语教学语料库的设计目的,我们以主题为基础进行主框架分类,在每一个主题下又进行了话题(sub—ject field)分类,如我们以leisure为一大类主题下又分为food,travel,fashio,sport,household,antiques,hobbies,garden-ing,每一个次话题的文本(sample)可以从教科书、网络、报纸、杂志上经过转写操作以电子文本的形式存储在计算机上。而之后采用国际通用的附码集(tagset)(standard gen—eralized markup language,SGML),如BNC中每个单词的SGML标注,“可以使电子文本重复进行编辑、搜索、分析和排版”。现在网络上存在可以免费使用的语料库,如The linguistic data consortium,http://www.ldc.up-enn.edu,European corpus initiative,http://www.cogsci.ed.ac,uk/elsnet/eci,html.the international computer archive ofmodern English,http://www.hd.uib.no.口语语料库有自身的特点,除了文本头标注外,还应对口语类型(对话、独白、演讲等)、会话角色、话语特征(如语词重复、停顿、口误等)、语法错误等进行标注。

我们可以利用Google alert/设置好我们需要的内容,然后网络会定时地把信息发到我们设置的电子邮箱当中,这样通过人工筛选可以添加到我们自建的语料库当中作为生语料。Google alert的服务界面如下截图所示:

然后,通过以上手段收集到的自然文本,我们要通过一系列的步骤把它们存储到计算机当中,经过标注之后的语料库便具有了丰富的语言学信息,在一些软件的辅助下就可以发挥作用了。我们自建的个人英语口语教学语料库便经过了以下几个步骤:

第一,把收集到的文本形式统一转换为TXT格式,在每一个文本的抬头记录下该文本的来源、采集方式。

第二,校对文本内容。如拼写、标点等内容,对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。

第三,标注,这是自然语言处理的基础。形态分析指对文本中的词形进行词性标注和赋码,目前已有成熟的词性赋码软件,可以对每一个词指定一个或多个词性码,就对纯英语文本而言,其赋码准确率一般可以达到98%。而句法分析和语义分析则以词性标注为基础,属于较为深入的研究而且非常复杂,在个人口语教学语料库中可以暂不涉及此部分内容。

第四,语料库应用软件的设计和使用。基于不同的研究目的和检索要求便会有不同的应用软件,使用在语料库中的软件就分为词性标注软件、分词软件、索引软件、句法标注软件、语义标注软件等。

文件夹下分为了不同的内容,通过提取标注后的样本文件,我们可以利用wordsmiths tools进行词频统计,得出在本话题讨论中最常见的词汇列表,去掉常用的如is,are,he,she,do等就剩下核心词汇,如blackberry,smartphone,bis,bes,appworld,desktopmanager,handheld software等,如果讨论blackberry in China的话题,我们还会看到ChinaTelecom和China mobile。学生可先行根据词频列表集中学习自己不熟悉的单词,然后根据主题选择自己的阅读。等学生进行完阅读以后,可就相关话题展开讨论,或自己表述,如:

Do you like blackberry?Why?

Could you say something about the future of blackberry inChina?

Is blackberry only a phone or something more to you?

What could you do with blackberry?

语料库可以为学生提供丰富和直观的语言素材,便于激发言说的欲望,使其有话想说、有话可说,从而达到使学生积极发言的目的。更为重要的是,提供了一种学习的方法,学生就某个自己关心的话题可进行自主查阅资料、积累语料,提高自主学习的能力和主动性。学生在上网的时候除了QQ、游戏、邮箱、娱乐新闻、看电影之外,不再因为不知道做什么而蹉跎光阴。

总之,在现有网络资源和计算机设备以及语料库应用软件的基础上,以丰富英语口语教学语料为出发点,以提

个人语料库属于特殊用途语料库,因此在设计和标注上不同于一般语料库,在样本的选择、语料库的规模上没有硬性的标准,语料库应该是可以及时更新的以便更好地代表一种语言或者语言的某一部分。

三、口语教学语料库的应用举偶

基于语料库的方法被称为现代语言学的三大研究方法之一,其中一个主要原因是语料库“以量化研究为基石,以概率统计为基本手段,以数据驱动为基本理念”传统语料库研究的重点放在了词频统计、语体风格分析、词语搭配(collocation)、固定表达(1exical bundles)、词汇语法(1exicogrammar)、语域(register)、特殊用途英语(Englishfor specific purposes)、语言差别(nuances of language)、教学大纲设计(syllabus design)等。

现就笔者感兴趣的blackberry的话题为例,通过自建小型个人语料库的辅助进行英语口语教学的展示。首先,按照我们语料库话题分类,blackberry属于applied science大类之下的technology and engineering,再次范畴划分为communications,用路径表示为:applied science\technologyand engineering\communications\phone\blackberryo高教学效果为目的,以培养学生自主学习能力为终极目标而开展的个人口语教学语料库的建设和应用研究体现出了其优势所在。需要指出,在肯定语料库在外语习得和教学中的巨大作用的同时,我们不能盲目地声称语料库语言学可以解决传统教学所存在的一切问题,我们需要发挥传统教学内省方法对语言形式研究的优势,同时结合基于语料库的以丰富的语言实例为数据驱动的教学方法,实现现代外语教学既重语言形式又重语言功能的全新理念。

参考文献

[1]范琳.二语习得与外语教学研究[M].青岛:中国海洋大学出版社,2007.

[2]C.F.Meyer.English Corpus Linguistics[M].Cambridge University Press,2004.

[3]S.Hunston.Corpora in appliedlinguistics[M].北京:世界图书出版公司,2006.

[4]傅爱平.语料库研究与应用综述[EB/OL].http://ling.cass.cn/yingyong/courses/corpusbase.htm#mulu.

[5]Graeme Kennedy.An introduction to corpus linguistics[M].北京:外语教学与研究出版社,2000.

[6]文秋芳,王立非,梁茂成.中国学生英语口笔语语料库[M].北京:外语教学与研究出版社,2005.

[7]http://www.googlealert.com[EB/OL].

上一篇:十位历史名人故事及话题分析下一篇:读辛亥风云有感