文化资源的概念范例(3篇)
来源:
文化资源的概念范文篇1
[关键词]语义互联本体全局本体UMLS
[分类号]G250.73
1引言
语义提取、语义分析、语义检索、语义集成和语义互操作已经成为当前语言学、逻辑学、图书馆学情报学、计算机科学等领域的研究热点。各领域从不同角度进行理论探讨和技术挖掘,力图进一步推动数字资源的语义互联和语义互理解。随着本体理论的日趋深入和本体技术的渐臻发展,本体作为一种蕴含知识间语义关系且能在知识层提供知识共享和复用的工具已经得到共识,以本体为知识组织核心的语义检索成为主要研究方向,并已积累了一定的研究成果。在此基础上,专家学者开始探讨本体在知识管理、语义互操作、决策支持和推理中的应用,并探讨本体促进数字资源语义互联的模式、机制并构建实验性系统。在医学领域,由于美国国立医学图书馆长期的积累,已经形成世界范围公认的知识组织体系,包括科学的叙词表、各种本体、医学术语标准、国际分类标准等。这为医学领域的数字资源进行语义互操作奠定了基础,为整合分散的、异质的各类生物医学数据源提供了保障。本文整合各种领域本体,集成各领域本体中的概念、术语和概念之间的语义关系,提出了医学数字资源语义互联模式――以UMLS为主导的多本体融合模式。
本文的研究意义在于促进各种知识本体在医学信息领域中的有效共享,为建立智能化的医学临床科研融合系统提供基础性研究,为进行深层次的医学数据挖掘与服务提供理论支持。
2医学数字资源语义互联模式
UMLS(theUnifiedMedicalLanguageSystem)是美国国家医学图书馆(NationalLibraryofMedicine,NLM)设计和维护的一体化医学语言系统。UMLS词表已成为词典标准在生物医学知识中共享,并被应用于生物医学数据库的信息提取和集成、本体的语义集成等。鉴于此,在构建医学数字资源语义互联方面,充分利用专家对UMLS在描述概念方面已取得的研究成果不失为一个捷径。
医学数字资源语义互联模式是以UMLS为主导的多本体融合模式,其充分考虑了UMLS在描述概念和语义集成方面的优势地位,为生物医学用户提供了统一的语义空间。在该语义空间中,异构数字资源通过语义标引实现语义互理解,用户可以对生物医学文献、生物医学数据库、临床数据进行数据挖掘、数据集成、决策支持、自然语言处理和知识发现,实现对知识的智能服务和共享。该模式是一种基于全局本体统控、多种本体融通的数字资源语义互联模式框架,见图1。在该模式中,每一种本体发挥他们各自在数据挖掘、语义分析、语义检索方面的作用,充分体现出本体的复用以及对现有知识组织体系的再利用;另外,该模式将提供词典标准的UMLS作为全局本体,形成共享的词汇集,从而保证本体之间的语义互理解。
3医学数字资源语义互联的结构
以UMLS为主导的多本体融合模式由三个基本层和两个链接层构筑。
3.1基本层
・用户层。该层是系统与用户的交互接口,用户通过应用接口层对异构数据源进行语义查询、数据挖掘等操作。
・语义层。该层是系统的核心层,是以UMLS为主导的多本体融合数字资源互联模式的关键所在,该层以UMLS为全局本体,通过本体映射和本体集成方法与工具复用医学生物学领域本体。
・数据源层。该层集成异构数据,包括临床数据、实验数据、基因(蛋白质)数据、文献数据和网页数据。
3.2链接层
・知识管理层。该层位于数据源层和语义层之间,在该层上,本体作为一种词汇来源支持对数据和资源的标引注释、检索和跨医学信息资源和本体的映射,反映数据资源层与语义层的交互。
・决策支持与推理层。该层位于用户层与语义层之间,在该层上,本体作为一种语义核心集支持对自然语言的处理、数据的集成、决策支持以及知识发现。
三个基本层是医学数字资源语义互联的根本和目的所在,两个链接层是数字资源语义互联功能和智能的体现。
4医学数字资源语义互联的机理
4.1UMLS本体的全局统控
医学知识本体为用户、资源和服务提供了信息交互的理解平台,为信息共享提供了可能性。目前,国际上开源的生物医学领域本体大体分为4种:基于医学信息检索的本体类型(UMLS、MeSH),基于生物医学数据的本体类型(OBO系列本体、GO),基于临床医学的本体类型(OpenGALEN、转化医学本体TMO),基于医学调查的本体类型(OBI)。这些医学领域本体或者建立了临床术语,或者为关联、集成和转化以患者为中心的数据提供了框架,或者定义一套结构化的通用的受控词表,都已经应用于自然语言处理的各个方面,如在词义冲突消除、语义冲突化解、语义检索、机器理解等方面,这些本体库各具特色,而UMLS在描述概念、术语、概念间关系、语义类型和语义关系方面更为全面和成熟。医学数字资源语义互联模式框架中,UMLS起全局本体的作用,利用UMLS融合语义互联框架中的局部本体,诠释用户、资源的语义,为两者之间的语义互联提供纽带。
4.2多本体融合的语义标引机制
在医学领域,最重要的三种数据资源是:生物(医学)文献、临床文献和基因产物。目前对这三种数据资源进行标引都有通用的标引词表和本体,这些现有的知识组织体系是信息组织专家多年研究的成果,已被广泛接受而且拥有大量的研究型用户,对这些知识组织体系的继承有助于促进数字资源语义互联的快速实现。
・生物(医学)文献。生物(医学)文献数据库是已广泛为医学领域学者和研究者使用的数字资源,对于这些商品化的数字资源,已经进行了标引(注释大多采用人工标引方法),标引采用MeSH词表和基因本体(GO)。
・临床文献。对于临床文献,目前世界上通常使用国际疾病分类(ICD)系统进行编码,另外,SNOMEDCT正在被越来越多的国家作为电子健康档案的标准术语,除此之外可以使用MeSH进行注释。
・基因产物。在生物学中,需要对实验数据的功能性描述进行注释。如使用基因本体对实验中基因产物的功能注释,复用SNOMEDCT和美国国家癌症研究所的NCI叙词表的OWL版本对组织微序列数据库中的数据进行注释,利用MeSH对基因表达库中的人类疾病进行注释。
在以UMLS为主导的多本体融合模式中,底层的数据源由各种医学知识本体进行语义标注,再借助于UMLS这一全局本体对已经进行了语义标引的数据进行语义互联。UMLS与各种叙词表、开源本体之间的映射借助于LexicalGrid(词汇网格)。LexicalGrid是美国梅奥医学中心生物医学信息学部设计的,旨在利用公共的工具、数据格式以及读取(更新)机制来弥补格式、配套工具以及编程接口方面的互不兼容问题,从中发挥桥梁和纽带的作用。LexicalGrid对有关资源的表达由一个单独信息模型实现,该信息模型可通过一套公共的应用编程接口(applicationprogramminginter-faces,APIs)加以访问(存取),这些APIs则是借助于共享型的索引加以联合,并且,这些索引可以在线下载、松散耦合、本地扩展、全局修订以及在网络空间和网络时间范围内现成可用,且彼此相互交叉链接。如图2所示:
4.3多本体融合的语义检索模式
以UMLS为主导的多本体数字资源语义互联系统的语义检索子系统运用UMLS本体对各种数字资源进行检索和浏览之后,对产生的检索结果进一步进行知识挖掘。用户提交检索词或检索式后,系统接受返回的检索结果,利用UMLS本体对检索结果进行词串鉴别、术语提取,最终到概念识别,通过数据挖掘,使检索结果成为进一步检索的候选检索词。
・将检索结果对应的概念转换成UMLS本体的类,并将检索结果与UMLS类对应起来,形成检索结果的可视化数据,此时的检索结果不仅仅是字符匹配,而是基于UMLS概念的检索结果分析。
・在检索结果导航中,根据UMLS本体概念之间的11种关系(如直接上位关系、直接下位关系等)提供扩检和缩检功能。
・在检索结果导航中,根据UMLS概念的语义关系(54种语义关系),提供概念与概念之间在语义关系上的反馈式检索方式。通过用户积极性反馈式的进一步选择与确认,进行检索结果的扩检与缩检,当然这一步需要用户具有相关知识。
・UMLS作为一种全局本体,通过概念映射到各个局部本体,进而形成检索结果导航模型。根据检索结果导航模型,检索结果被统计并对应到相应的UMLS分类导航目录和各本体的分类导航目录,用户可利用该导航目录快速找到自己所需要的文献。
该语义检索模式,提供以UMLS为主导的多本体检索结果分类概览,帮助用户实现基于概念的检索结果快速导航;自动提供与检索提问相关的术语;自动提供与检索提问相关的上位概念、下位概念和同位概念;自动提供与检索提问相关的概念之间的语义关系;自动提供与检索提问相关的准确的生物实体,从而提高检索的准确率和召回率。
4.4多本体融合的信息集成构架
信息集成分为:结构集成、语义集成和智能集成。以UMLS为主导的多本体融合模式以全局本体UMLS为中心纽带,在结构化集成的基础上,对信息间语义的关系实施深度挖掘和充分利用,进而完成语义级信息集成。一方面,通过提供医学领域的全局本体UMLS,为数据集成所需要的标准化提供支持,可将要集成的数据源转换成一种通用格式并将其转换为通用词汇。另一方面,围绕UMLS本体,可以定义数字资源语义互联全局架构,可根据全局框架进行语义查询,并在全局性架构和本地架构(要集成的数据源架构)之间进行映射。参考基于本体的信息集成系统TAMBIS,BioMediator、OntoFu-sion、ARIANE和MASBOI,结合基于语义模型的信息抽取概念模型,设计信息集成框架,如图3所示:
各组件的功能和作用如下:
・原始信息。包括临床数据、文献数据库、基因(蛋白质)数据库等结构化信息和半结构化信息数据源。
・信息抽取。从原始数据中经过自然语言处理(如MetaMap)抽取出词串和术语组织成元数据库。
・局部映射。将元数据中的词串和术语匹配到各个局部本体中。
・全局映射。一方面,以UMLS全局本体为标准。将局部本体映射到全局本体解决局部本体问的语义异构性问题,满足彼此间相互查询的需求;另一方面,UMLS提供了全局框架,将已匹配到局部本体中的元数据映射到UMLS概念中,满足对原始数据的语义标引需求。
・概念-关系分析器。对数据管理、本体学习、语义检索和知识发现的数据进行自然语言处理,对处理结果进行概念-关系分析,分析后依据全局映射匹配到UMLS中的概念和语义关系,匹配后交由推理机和查询接口。
・查询接口。一方面,是为用户提供的统一语义查询界面,用户借此提交查询关键词,提出查询请求;另一方面,将经过概念-关系分析的查询,提供给UMLS概念及概念间关系的可视化检索结果导航,再提供给用户。
・推理机。将经过概念-关系分析的术语进行UMLS概念匹配并建立概念矩阵,以发现新的概念间关系和新知识,新的概念间关系用于本体进化,新知识将被写入知识库。
5医学数字资源语义互联的功能
医学数字资源语义互联不仅仅致力于为医学工作者提供基于语义的检索,更重要的是为用户、数字资源和程序之间建立理解一致的信息交互结构。医学数字资源语义互联模式的构建为医学信息处理提供了可共享的平台,使得针对临床工作者、医学科研人员和医疗保险的数据之间具有了语义互通的可能性。基于此,其功能不仅限于智能检索,还包括自然语言处理、本体学习、专业知识发现等。
5.1自然语言处理
自然语言处理(NLP)能自动识别文本中所感兴趣的实体名称,将数据库中的信息转化成人类可读的语言,自然语言处理将扩展互联的医学数字资源范围,从而使互联模式更机智能化。从自然语言处理系统处理的文本及处理技术两个角度来考虑,在生物医学领域,临床医学和分子生物学是两个最重要的内容子域。在临床的内容子域中,重点是疾病、解剖学、病因和治疗以及这些现象之间的互动。因此,语义处理对概念和关系识别后,还需将所处理的文本内容映射到一定的知识结构。利用生物医学本体所提供的丰富词源可开发出许多自然语言处理系统。以UMLS为主导的多本体数字资源语义互联系统为满足大规模文本处理的需求,利用了美国国家医学图书馆(NLM)研发的在线工具――语义知识表征。
・SKR是由美国国家医学图书馆研发的项目,该项目致力于在图书馆现有资源基础上建立生物医学自由文本上可用的语义表达。SKR系统的核心组件是MetaMap,如图4所示:
SKR/MetaMap对自由文本进行语义层次的分析且是基于语境的语义分析。MetaMap使用知识密集型的方法,包括符号、自然语言处理和计算语言学等技术,是一个把生物医学文本与UMLS超级词表中的概念匹配起来的程序,MetaMap的自动文本映射可将文本解析成名词短语,形成词串,对词串按照阈值形成Meta映射候选集。SKR/SemRep也是为了发现生物医学研究文献中的语义命题而开发的,通过语法分析和UMLS的领域知识识别出自由文本中的实体,用来提取生物医学文献中的语义假设。
・以UMLS为主导的多本体语义互联系统的自然语言处理系统,读入MetaMap处理后的数据,将形成的Meta映射候选匹配到全局本体UMLS概念上,之后对自由文本进行基于概念的语义标注,供语义检索子系统使用。
5.2智能检索
医学数字资源语义互联模式能够实现不同程度的智能检索功能:①以UMLS为主导的多本体融合模式,提供了概念关系级别的知识组织体系,全局本体与局部本体的映射融合,易实现概念级别的扩检与缩检,易进行概念组合的描述,易梳理出概念关系,从而不断逼近检索;②语义互联模式提供了反馈式检索方式,能加深人机互理解程度;③数据存储形式为RDF的三元组形式,这种形式方便推理,支持概念语义的查询。
5.3本体学习
本系统中的知识发现涉及到本体准备、本体扩充、事例选择、本体挖掘和本体进化几个阶段。知识发现通过主成分分析、独立成分分析、神经网络和统计学方法等数据分析技术以及二维、三维和散点图等可视化方法,能够帮助用户发现概念间的新关系,丰富本体中类的语义关系。另一方面,4.2中所提到的三类标引内容包括生物(医学)文献、临床文献和基因产物,这些数据来自不同领域,但是通过UMLS而相互连通,从而在临床试验设计、地理学和人口学数据、流行病学数据、药物、治疗以及基因等不同领域的数据中进行集成,将分散的事实连接成新的概念和关系,使本体通过互操作实现本体学习。
5.4知识发现和专业知识聚类
医学数字资源语义互联中的自然语言处理系统利用MetaMap,对读入的MetaMap文本数据进行统计,基于UMLS统计出术语的概念信息,形成概念共现矩阵,利用聚类分析软件,对概念间的关系进行可视化表现,进行直观的概念关系梳理和知识挖掘;并将针对同一目的所产生的不同事实和观点联系起来,形成新的概念和假说,从而辅助知识发现。
6结语
文化资源的概念范文
关键词:本体;数据整合;共享
中图分类号:TP392文献标识码:A文章编号:1006-4311(2012)18-0196-02
0引言
正如钱老曾经指出的那样,“作战实验是军事科学研究方法划时代的革新。”在我军军事理论研究和信息化建设的过程中一直都十分重视关于作战实验理论、作战实验方法及作战实验技术的研究和作战实验系统的建设,在利用作战实验研究军事问题方面也取得了丰硕的成果。作战实验为军事科学理论创新、战法检验、战果预测、效能评估等诸多研究工作提供了重要的环境和手段,而且随着技术的进步,环境越来越逼真,手段越来越丰富。多年来,各种类型、各种规模、各种层次的作战实验在达成既定实验目的的同时,也积累了丰富的、以不同形式保存在不同位置的不同类型实验数据。因此,我们现在开展军事研究工作所面临的问题不再是像过去那样缺乏数据资料,而是如何从海量的无序数据中提取到有用的信息资源。所以,研究行之有效的方法和技术手段实现作战实验数据资源整合,进而实现数据共享提高资源的传播和利用效率,是军事信息系统工作者亟待解决的任务。基于本体的数字资源整合方法是目前信息资源管理学科的研究热点之一,本文以作战实验为背景,研究本体法的具体应用。
1本体的含义
本体(Ontology)一词来源于哲学范畴,在西方哲学史中,本体一般指一切属性的基础和本原的东西。人工智能领域首先把本体的概念引入用于知识表示和知识组织,使本体的内涵发生了改变,之后又有多个领域借用这一概念,但关于本体的明确含义尚无统一定义。美国学者Guber认为本体是一套得到大多数人认同的、关于概念体系的明确的、形式化的规范说明,这一说法目前所赢得的认可程度比较高。明确、共享、形式化和概念化是德国学者Studer等总结的本体的四大特征。根据应用范围的不同,徐振宁等学者把本体分为三类,如图1所示。
还有很多国内外学者提出了本体分类的学术观点。本着本体是面向特定应用领域应用的本体的观点,马文峰、杜小勇等学者认为本体应分为领域本体和通用本体两类。本文认为这种分类观点更贴近工程应用。其中,领域本体的描述对象主要是特定学科领域或社会活动领域中的概念、概念的属性、概念间的关系以及某些需要遵从的规则。通用本体是具有普适性的概念集合,也是若干不同领域的共享本体。通用本体和和每个下属领域本体之间存在一定的映射关系,通过这种映射,通用本体把不同领域的概念整合成有机整体,再通过领域本体面向具体的应用。它们之间的关系如图2所示。
2基于本体的数据资源整合方法
数据资源整合不是简单的把数据集中和合并,更主要的是要将数据进行梳理、融合、类聚,以形成有机的数据资源集合。每一个作战实验或作战实验系统都相当于是一个特定的应用领域,这些应用领域又同属于军事作战这个大领域。每个应用领域中既包含本领域特有的概念和数据,又包含领域间共有的大量通用概念。由此可见,作战实验数据资源的组成结构与图2所示的本体机构关系比较相似。本体是很好的知识组织和知识表示的工具,通过通用本体和领域本体中概念间的映射、概念属性的延拓和交织,形成了领域或者学科清晰、完善的概念网络,按照这一网络进行知识组织,也就是把相应概念下的数据充实或注解到网络节点上,该领域或学科的知识网络就形成了。显然,我们可以按照这样的模式来对作战实验数据进行知识组织,从而使现有的数据资源形成一个有机的整体集合,资源得到有效管理。
数据资源整合的最终目的是为了资源的共享和再利用,共享和再利用的基础是实现数据便捷、高效的检索。我们不难发现,基于本体的数据资源整合方式对数据检索是非常有利的。这是因为,按照本体方法组织的资源结构呈树状网络,展示了知识的关联性,概念映射从通用本体到各具体应用领域呈层级辐射状。检索时,首先在通用本体词表中检索到与检索对象相同或相似系数最高的概念,然后映射到相应的领域本体词表,此过程将循环向下层延伸,直至链接到底层数据源,所以,检索的效率较高。当然,这只是笼统地对基于本体的数据资源整合原理和过程进行了描述,具体实施过程还需要多种技术的支撑,比如联邦数据库技术、数据仓库集成技术、OLAP联机分析技术、CORBA/DCOM分布式对象技术以及中间件技术等。另外,为兼顾效率、成本和准确性,还有许多看似是具体细节问题但实际上影响全局的问题需要研究针对性的解决方案,比如各领域本体概念词表中近义词、关联词以及同词不同义等问题,这些问题的有效解决需要对本体具有语义集中的特性加以充分利用。因此,除了需要能够灵活运用相关先进技术外,构建科学、合理的本体结构体系对作战实验数据资源整合具有至关重要的影响。
3本体的构建
目前,关于本体原型的构建研究已经受到不同应用领域的关注,许多学者投入到了此项工作中,提出了多种极具参考价值的构建方法,其中最具代表性的有七步法、骨架法、IDEF-5法、循环获取法以及企业建模法等。无论采用何种方法,完善、准确的本体体系构建都不可能一蹴而就,首先建立一个初始本体,然后在此基础上根据应用的需求进行动态的关联、扩充和修改。在作战实验数据资源本体的初步构建过程中我们主要从以下两个方面开展工作构建初始本体。
3.1本体信息的获取确定本体的信息源是本体建设的基础。我们要整合的数据资源全部是以军事领域的作战实验为背景的,所以,获取军事作战的领域信息是本体建设的首要任务。获取领域信息的现有途径主要有两条,一是在现有类似本体的基础上改造;二是利用相关方法新建。在此环节我们采用了两种途径相结合的策略。
我国军事科学的学科体系建设和分类已经比较完善,2010版《辞海》中将军事科学的知识体系划分为13个学科门类,如图3所示。每个学科都有各自成熟的体系。我军的各项条令、条例、《中国人民军语》以及《军用主题词表》对军事领域的主要用语、概念作出了明确、严格、规范的规定和阐述。上述这些资源虽不是真正意义上的本体,但是其基本功能与本体有很强的一致性,它们都是概念和概念间关系的集合。虽然随着军事学科理论和实践的不断创新和发展,上述的分类或概念属性很有可能会有变化和调整,但并不会影响对现有知识、资源的组织。对这些资源的充分利用,可以使我们在本体建立中达到事半功倍的效果,建立的本体体系也更符合作战实验数据资源生产者和使用者的思维习惯。我们的顶层共用本体和领域本体的概念体系主要是在上述资源的基础上改造而成,并且根据需要还将领域本体继续向下细分了层级,比如作战领域下建立的二级领域又分为:联合作战、合同作战、空军作战、海军作战及第二炮兵作战等。
另外还有一些概念及其属性只在特定的作战实验或作战实验系统中使用,或者是同一个概念在不同的领域被关注的属性不同,军语及主题词表等资料又没有准确说明。在获取领域本体信息时,对这些概念和关系我们采取的办法是:首先利用技术手段从数据源文档的题名或关键词、数据库中的数据字典、E-R图中抽取概念和术语集合,然后再由军事专家组筛选、补充,并梳理它们的逻辑层级和语义关系。通过这两种途径的结合,从而得到完整和精确的领域本体信息。
3.2本体的描述本体用来组织和表示知识,需要明确、准确、逻辑性强的语言来描述,这种语言还必须是机器可读的。现在用来具体描述本体的语言种类已经很多了,每种语言各有所长。OWL语言在语义表达方面的功能更为丰富,能更好地支持推理,有助于表达和解释知识的内在联系。我们采用的就是OWL语言族谱中最小的语言子集OWLLite。OWL中的类(Class)、子类(Rdfs:SubClassOf)、属性(Rdfs:Property)、子属性(Rdfs:SubPropertyOf)、个体(Individual)等语言成分用来描述本体模型中的实例、实例间关系、个体到概念的映射以及概念间的关系等。例如,我们从“54式手枪”、“81式自动步枪”等一系列实例中可以抽象出“枪”这一概念,那么“54式手枪”、“81式自动步枪”都是“枪”类的成员,“枪”又是“武器”的子类。定义“口径”为“枪”的属性,通过属性“口径”,可以把类“枪”和另一个类“弹药”建立关联,更复杂的描述和推理依赖于OWLLite语言的定义约束。
4结论
数据资源整合是一个复杂的系统工程,本文仅在基于本体的整合研究领域进行了初步的尝试,在作战实验应用领域背景下分析比较了本体构建的基本方法和技术途径,并实践了部分环节,但距离系统化和实用化还有很长的路要走。后续研究准备围绕本体评价与进化、本体的展现来开展,通过动态循环来完善本体模型,从而实现定义明确、描述规范、共享便捷的作战实验数据资源整合目的。
参考文献:
[1]徐振宁,张维明,陈文伟.基于Ontology的智能信息检索[J].计算机科学,2001,(6).
文化资源的概念范文
[关键词]信息可视化;知识组织;知识体系
[中图分类号]G354[文献标识码]A[文章编号]1673-0194(2013)012-0081-02
1信息可视化产生的背景及含义
对繁杂的抽象信息之间的复杂关系进行探索的努力,促进了信息可视化这一崭新科学领域的出现。用图形图像方式来展示信息特征,可以利用人类视觉系统的特点帮助人们更快速、更深刻地理解信息,并可以便捷地进行信息空间的导航,快速地检索信息。因此,用图形图像方式来展示信息特征,可以利用人类视觉系统的特点帮助人们更快速、更深刻地理解信息,并可以便捷地进行信息空间的导航,快速地检索信息。可视化便是基于这种需求而产生的,并成为当今信息科学领域的发展趋势之一。
所谓信息可视化,是将非物理的抽象数据用可视的形式表示出来,以便分析数据、发现信息的本质规律和制定决策。信息可视化的任务在于搜索、发现信息之间的关系和信息中隐藏的模式,其对象主要是非物理数据及数据之间的关系以及没有集合属性的抽象信息,其核心问题是寻找表示信息的可视化表达,理解信息的知识表示。信息可视化通过对信息的感知将其信息表达化成知识,它实际上是研究人与计算机表示的信息以及两者之间相互影响的技术,表现为人与计算机信息之间的一种可视化界面。
2信息可视化与知识组织的联系
知识组织的基本概念是“知识”。从可呈现角度来讲,知识包括隐性知识和显性知识,这里主要指后者。简单说,知识是抽象化、系统化、理论化的信息,关联是知识的本质属性。所谓知识组织,就是在信息组织的基础上,研究知识的获取、描述、整理、表达、控制、共享等整个知识组织过程的理论与方法,知识组织的精髓在于对知识及知识间的关联进行揭示和组织,知识获取、知识处理、知识表达和知识共享是知识组织研究的重要内容。其基础是知识组织体系。知识组织体系是对资源内容概念及其相互关系进行描述与组织的机制作为对资源内容概念及其相互关系进行描述与组织机制的知识组织体系,即是指实现知识组织的内在方式和途径,它既指知识组织的过程,也指调控知识组织的方法和手段。
知识组织体系是伴随着数字资源的知识组织而出现的一个新的研究课题。从知识组织与信息可视化两者的关系来看,知识组织实现了知识单元的有序化和知识关联的网络化,而信息可视化在人和信息之间架起了一座桥梁。一个完整的知识管理体系应该包括知识收集、知识提炼、知识存储和知识应用4个阶段。知识形态之间的转化,需要一种视觉化模型来表达和呈现。随着知识量的增加,如何呈现知识成了信息利用的瓶颈。因此,把信息可视化的相关方法和技术应用到知识组织中将是必然的选择。
3信息可视化工具在知识组织领域中的应用
为了有效地表达和利用知识组织,信息可视化的相关工具和方法被应用到知识组织的研究和管理中,这类工具主要有概念图、主题地图可视化、本体可视化等。
3.1概念图
概念图是康奈尔大学的诺瓦克(J.D.Novak)博士根据奥苏贝尔(DavidP.Ausubel)的有意义学习理论提出的一种教学技术。它是利用概念以及概念之间的关系表示和组织结构化知识的一种可视化,通常将某一主题的有关概念置于圆圈或方框之中,然后用连线将相关的概念和命题连接,连线上标明两个概念之间的意义关系。概念图支持并实现了有意义学习理论(MeaningfulLearningTheory)和建构主义模式(Constructivismmodel)。诺瓦克教授提出的概念图构建准则包括以下4个步骤:①概念选取:列出关于某个主题的所有重要概念;②概念分类:分为广度结构和深度结构,广度结构根据概念间关联性强弱将概念划分为不同的分支,深度结构将不同分支中的概念按照概念的宽窄由上至下排列;③定位中心概念,连接概念:首先,获取中心主题概念,作为整个概念图的根节点,然后,从中心节点出发连接每个分支的中心节点,形成概念图的第二层,并注明连接词,继续上述过程,直至连接完所有概念;④连接交叉概念:仔细研究概念图中的各个概念,看它们是否存在交叉关系,若存在,连接交叉关系,并注明连接词。概念图的构建过程即是知识创新的过程,利用概念图可以沉淀隐性知识。而概念图的构建过程也是学习的过程,可以将学习中涉及到的资源链接到概念图,实现知识结构与相关资源的整合。同时,概念图表示的知识结构遵循人类的认知和学习过程,因此可以利用概念图导航人们检索所需知识,也就是说,我们还可以利用概念图聚合显性知识。
3.2主题图
主题图则侧重以可视化方式表示知识概念间的相互联系,通过由主题、关联和呈现3个核心概念组成的主题图数据模型来描述主题、主题间的关联性以及主题与资源实体之间的关系,并联结与其相关的资源。主题图是利用XMT标记语言表达数据模型的,XTM定义了XML用描述和标记主题图的方式,可开放地标记、存储和传输主题图数据。通过主题图可以展现资源的知识结构。主题通过关联相联系,通过呈现指向相应的信息资源。主题地图可视化的目的是帮助用户快速定位相关信息,轻松识别相关结构。因此,主题地图可视化包括两类要求:表现要求(RepresentationRequirements)和导航要求(NavigationRequirements)。好的表现形式帮助用户定位感兴趣的位置,有效的导航机制帮助用户快速查看所需信息。表现机制不仅给用户提供主题地图的总览,而且提供不同细节层次的多比例缩放机制,用户可以从总体上把握主题地图,同时可以聚焦主题地图的各个层次细节。总览提供了主题地图的主要特征,用户一眼可以发现主题地图的主要特性。用户首先要了解主题地图有哪些概念及总体特征。这些信息应体现在表现机制上以帮助用户区分不同的主题地图。
3.3本体
本体是近几年学术界研究的热点,也是目前知识组织的常用方法。本体起源于哲学领域,其定义为“共享概念模型的形式化说明”。概念模型是针对客观世界中的一些事物进行抽象所建立的模型,该模型确定了这些事物的相关概念及其关系。而形式化是指所建立的模型是机器可读的。本体通过领域知识的逻辑抽象而构筑起体现概念及关系的概念系统,是面向领域的通用概念模型,通过构建领域本体可以规范化组织这一领域的共享知识。基于本体的知识整合的主要功能表现:①本体的构建为实现资源一体化的知识整合奠定基础。基于本体的知识整合可应用于网络资源、异构资源系统及信息门户的资源整合等多种领域,其基本思路都是一样的,即是在资源集合的上层构建一个反映资源知识结构的本体概念模型。如果针对不同领域的信息集合建立起相应的领域本体,在此基础上,通过不同本体的语义映射实现异构资源和系统之间的语义联系,即可将各个相对独立的领域本体资源联系成一个立体的知识网络,人类所拥有的资源就呈现出具有完整结构、规范有序的知识地图。②本体的构建使得领域知识可以重用和共享。共享是本体的重要特征,即指本体概念体现的是共同认可的知识。由于本体反映的是相关领域中公认的概念,所以如果一个组织构建了专业领域本体,如法学本体、经济学本体等,其他组织可以共享和复用。基于本体的资源整合能够真正实现领域知识的共知、共识和共享。③在本体的支撑下实现基于语义的知识检索。实现知识检索是本体的重要应用之一。本体作为领域知识的语义模型,其主要功能体现在知识组织和知识检索两方面。知识检索是知识组织的逆过程。实现基于概念语义的知识检索,必须有赖于知识组织体系的支撑。只有以基于本体的知识组织体系为基础,以领域本体的概念模型作为资源元数据的规范描述标准,才能真正实现基于语义的知识检索。
主要参考文献
[1]赵刚,崔军.信息可视化初探[J].晋图学刊,2007(2).
[2]李纲,郑重.信息可视化研究进展[J].图书情报知识,2008(7).
[3]马文峰,杜小勇.关于知识组织体系的若干问题[J].中国图书馆学报,2007(2).
[4]周宁,张会平,陈勇跃.信息可视化与知识组织[J].现代图书情报技术,2006(7).
年级写人的作文范例(整理5篇)
- 阅0年级写人的作文篇1我最熟悉的人当然是我的弟弟啦,我的弟弟是个瓜子脸,乌黑的眉毛下有一双水汪汪的大眼睛。他还有一张会说的嘴,如果你和他斗嘴,他肯定斗得你无话可说。我弟弟特.....
党员酒驾检讨书范例(精选3篇)
- 阅02020年党员酒驾检讨书范例篇1尊敬的交警同志:关于我酒后驾驶的行为,几天来,我认真反思,深刻自剖,为自己的行为感到了深深地愧疚和不安,在此,我谨向各位做出深刻检讨,并将我几天来的.....
计算机课教学反思范例(3篇)
- 阅0计算机课教学反思范文篇1在中职计算机课程的信息化教学模式实践之初,教师要尤其注意课程开展的具体而微的准备。首先,计算机课程教授前,教师要根据教学的内容,带领学生一起分析.....
家政服务的发展前景范例(3篇)
- 阅0家政服务的发展前景范文篇1自2006年,在西山经济与中关村科技的多元化、多角度碰撞下石景山园诞生开始,这个中关村“一区十园”中年轻的成员便以一个逾来逾快的加速度,迅速崛起.....
教师个人工作总结标准模板范文3篇
- 阅12023年教师个人工作总结 篇1 本学年,本人接手担任学校教学工作。一学期来,我自始至终以认真严谨的治学态度....
幼儿园教职工培训计划范文(精选5篇)
- 阅1幼儿园教职工培训计划篇1一、培训目标和培训重点坚持以师德建设为中心,以促进教师专业发展为目标,以《指南》....