我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 语言知识库 >

领域知识获取pdf

归档日期:06-24       文本归类:语言知识库      文章编辑:爱尚语录

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

  领域知识的获取 摘要 知识库是自然语言处理系统的基础,为系统“理解”自然语言并顺利 完成任务提供有力的知识保障。本文针对领域知识的获取进行了研究和探 索,提出了一些新的处理技术和模型。主要创新点包括: 1.针对领域知识源获取过程中的网络冗余信息问题,提出了一种基于 关键词序列的网络文本信息去重算法叫SM。以全信息理论为依 据,使用文档的关键词序列来描述其结构特征和内涵特征,通过比 较主题相似文档的关键词序列的重叠度,判断是否存在信息冗余现 象。在各类隐式重复检测实验中,KSM算法的总体准确率和召回率 分别达到了99.2%和97.7%,显示了较好的性能。 2.针对低频术语抽取召回率较低的问题,提出了一种基于语言认知理 论的中文术语自动抽取算法,借助科技论文的话语标记,在C.value 测度和SCPf测度中引入候选术语的加权词频因子,提出了一种 MC.SCP测度,用于候选术语的单元性和术语性的综合评价。在车 牌识别领域的术语抽取实验中,基于MC.SCP测度的算法召回率和 准确率分别是96.5%和77.8%,低频术语的召回率和准确率则分别是 96.2%和79.3%;在保证术语抽取整体性能的同时,显著改善了低频 术语的抽取效果。 3.针对术语关系类型的多样化问题,提出了一种基于多策略的术语关 系自动获取模型。根据科技论文的语言学特点,综合术语的内部特 征和外部特征,从多个层面发现和获取术语间的各种关系,包括: 基于规则的术语同义关系获取、基于结构相似性的术语层级关系获 取、基于完全加权关联规则的术语非层级关系获取、基于粒子群的 术语聚类等。在术语非层级关系获取中,提出了一种基于非频繁项 集多重剪枝检测的完全加权关联规则挖掘算法—一AWARM.MPIS, 用于完全加权关联规则的频繁项集生成和剪枝,取得了良好的效果; 在术语分组关系获取中,提出了一种基于粒子群的术语聚类算法, 使用术语的结构相似性(内部特征)和关联度(外部特征)来评价 术语的语义相似性。实验结果表明,其平均运行时间与迭代次数比 K.Means提高了2个级别。 4.针对多领域科技论文的大量出现与编辑人员专业知识有限的问题, 提出了一个领域知识制导的科技论文初审辅助系统模型。根据科技 期刊的出版要求和科技论文的特点,结合编辑人员的工作经验,将 编辑初审细化为4个方面的评判,以此为依据开发了一个原型系统, 并使用《计算机工程与应用》和《计算机科学与探索》的2365篇投 稿论文为语料进行了性能测试。实验结果表明,该系统可辅助编辑 人员淘汰35%左右的低质量稿件,提高了编辑初审的效率。 关键词:术语抽取术语关系获取文本信息去重完全加权关联规则挖掘 科技论文初审辅助系统 DOMAINKNOWLEDGE ACQUISITION ABSTRACT is‘‘brain’’of base natural and Knowledge languageprocessingsystems enablesthemto‘understandandnatural dissertation process language.This makeseffortto new ofdomain exploretechnologiesknowledgeacquisition.The maincontributionsareasfollow: 1.Tosolveweb inforlrlationthedomain redundancy during knowledge source web documentremoval based acquisition,a duplicatealgorithm onkeywordsequences(i.e.KSM)is to information uses of comprehensivetheory,KSMkeyword sequences webdocumentto itsstructurefeatureand represent intensionfeature. then information judges redundancybycomparingkeyword sequences betweensimilardocuments.In thevariousobscure detection duplicate overall andrecallrateofKSMiS99.2%and experiments.theprecision 97.7%respectively. 2.To therecalloftermswithlOW automatic improve frequency,an Chinesetermextraction basedon algorithm cognitiontheory language is useof in discoursemarkersresearch presented.Making papers,this algorithm toC-Valueand introduces‘weighedfrequency’factor SCPfmeasures.thenMC.SCPmeasuretoevaluateboth proposes ‘unithood’and‘‘termhood’ofcandidateterms.In the‘‘LicensePlate termextraction.theoverallrecalland is Recognitiondomain precision 96.5%and for therecalland terms 77.8%respectively,whileprecision withlow is96.2%and frequency 79.3%respectively. 3.To variousrelationsofterms.a basedrelation acquire multi.strategies modelis a)rule—based acquisition designed,includingsynonymical relation relation basedonterms’ acquisition,b)hierarchicalacquisition relation based similarities,C)non—hierarchicalacquisition morphologic ona11 association term weighted rules,andd)PSO-basedclustering. conflictbetween ofmulti—domainresearch 4.Toalleviatethe swarming andlimitationofeditors’knowledge,a papers assistant is tothe firstreview presented.According guided system intofour firstreviewiSrefined judgments.In editors’experience,the of2365research canassisteditors the system experiment papers,this with 3 manuscripts. filtering5%unqualified KEYWORDS:term extraction,terms’relationacquisition,documentduplicate Rules review Association removal,A11.WeightedMining,first assistantforresearch system papers 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京 邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 :£L 思。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 毒卫 日期:少略.。6.易 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大 学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可 以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位 论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在 年解密后适用本授权书。非 保密论文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 老2 日期:删.口彳易 导师签名: 如嘲言 日期:唯一J占一03 1 北京邮电大学博士学位论文 第一章绪论 第一章绪论 自然语言理解(NLU,Natural Language 注目而又困难重重的一个核心研究课题,其根本任务就是建立一种能够像人那样理解、 分析并回答自然语言的计算机模型。所谓自然语言,指的是人们日常使用的各种通俗语 言,如汉语、英语、日语等。要让无生命的机器系统能够像有智慧的人类那样理解人类 的自然语言,显然是一个非常困难的问题。因此,目前关于计算机对自然语言的理解都 是从实用的角度进行评判,即认为一台计算机只要能够对自然语言进行某些“处理, 如入机对话、机器翻译或自动文摘等,就具备了自然语言理解的能力。因此,在计算机 科学中,“自然语言理解”又称为“自然语言处理(NLP,Natural LanguageProcessing) 【l捌 0 正如人类要正确理解自然语言,必须在之前积累大量必要的知识,如果人们希望机 器能够“理解自然语言,首先就必须为其建立一个高质量的知识库,作为机器的头脑 和核心,以支持系统正确无误地处理自然语言。知识库的规模和质量在很大程度上决定 了自然语言处理系统的成败【3】,这已经成为自然语言理解技术研究者和系统开发者的共 识。因此,研究和开发知识库是自然语言处理系统的关键问题之一。 1.1.知识库的相关概念 1.1.1.知识 在日常生活中,人们常常会使用到“知识这个名词;但是,要想对它做出一个公 认的确切定义还是很困难的。由于知识是一个内涵丰富、外延广泛的概念,不同学科各 从不同角度对知识进行了定义。这里将列举其中一些比较有代表性的知识定义【45】。 从哲学角度对知识的定义: · 所谓知识.就它反映的内容而言.是客观世界在人弦中的主观映象。就它的反 映活动形式而言。有时表现为主体对事物的感性知觉或表象。藏于感性知识: 有时表现为关于事物的概念或规律.属于理性知识o ——《中国大百科全书·教育卷》 · 知识羁于认识范畴,是人类的认识或果。经验是知识的初级形态:系统的科学 理论是比较完备的知识形态o……(知识)是对事物霭性s联系的认识.表现 北京邮电大学博七学位论文 第一章绪论 为对事物的知觉、表象、概念.法氏等心理形式。司通过书籍和其他人造物独 立于个体之外o ——《教育大辞典》 - (知识是)人类的认识或果,即人通过社会实践中对自然、社会、思维的现象 和本质的认识的观念的总和o ——《实用科学名词术语词典》 · 知识是认识论范畴的概念。它所表述的是事物运动的状态和状态变化的规律, ——钟义信【6,刀 从计算机科学角度对知识的定义: · 知识是经过加I(包括肖lj减、塑造、解释、选择和转换等)的信息o ·-。____________——Fcigenbaum · 知识是由特定领域中的描述、关系和过程组成的o ——Bernstein · 知识=事实+信念+启发式信息o ·_-_·_—’Heyes—Roth · 知识是一种分类能力4使胃集合的概念来表示,知识就是等价关系集R对离散 表示的空间U进行翅分的结果o ——Z.Pawlakt8】 这些对知识的各种定义,从不同侧面说明了知识的性质和特点。本文不刻意去追求 一个统一的定义,不妨通过知识在信息过程(如图1.1所示)中扮演的角色来理解其本 质【671。 信息再生矧目标信息 l、、..—.——..-/ 知识 I智能策略 信息传递 认识论信息∥…攀 智能策略 问题与环境 )4 信息获取Ie===爿 I信息施效 f本体论信息\、 //智能行为I 图1.1典型信息过程模型 由图1.1可以看到,在信息过程中,主体(人类或智能系统)为了在给定的环境下 北京邮电大学博士学位论文 第一章绪论 成功解决问题、达到主体目的,需要有针对性地获取问题与环境信息,恰当地对其进行 处理,以提炼知识,达到认知,然后在其基础上结合主体的目标信息,合理产生解决问 题的策略信息进行问题求解。在整个过程中,信息、知识、智能之间是相互依存、共为 一体的关系:信息是基本资源;知识是对(认识论)信息进行加工所得到的规律性、抽 象化产物;策略(即狭义智能)是由客体信息和主体目标演绎出来的智慧化身;(广义) 智能是把信息资源加工成知识,进而把知识激活成解决问题的策略,并在策略信息引导 下具体解决问题的能力。知识在信息过程中扮演着桥梁的角色,它一方面来源于信息, 另一方面又服务于智能策略的生成。 虽然关于知识的定义有各种形式,但是对于任何知识,人们通常采用F.Hayes.Roth 提出的知识三维空间(范围,目的,有效性)来描述[41。知识的范围是由具体到一般, 知识的目的是由说明到指定,知识的有效性是由确定到不确定。图1.2给出了知识的三 维空问描述。 范围 目的 有效性 图1-2知识的三维空间描述 1.1.2.知识库 Base),就是用于存放知识的实体,是结构化、易操作、 所谓知识库(Knowledge 易利用、全面、有组织的知识集群,是针对某一(或某些)特定领域问题求解的需要, 采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的关于这 个(或这些)领域的知识片集合。知识库是将传统的人工智能(Artificial Intelligence, 简称AI)技术和数据库(Database,简称DB)技术相结合的产物【9,10】。 在张效祥主编的《计算机科学技术百科全书》中,根据知识在专家系统求解问题过 程中的作用,将知识库内的知识分成了三个层次:最低层是描述性知识(Descriptive Knowledge),也称为事实性知识,使用对象和概念的特征及其相互关系来表示;中间层 北京邮电大学博:卜学位论文 第一章绪论 是判断性知识(JudgmentMKnowledge),也称为启发性知识,是与领域有关的问题求解 知识,如某领域内有关的定义、定理、运算法则、推理规则和常识性知识等;最高层是 过程性知识(Procedural Knowledge),是进行问题求解的控制策略,即如何应用判断性 知识进行推理的知识。因此,知识库的基本结构是层次结构(如图1.3所示)。知识库 和传统数据库的区别就在于它不但包含了大量的简单事实,还包含了问题求解所需的各 种规则和策略[91。 图1-3知识库的层次结构 知识库使基于知识的系统(Knowledge-basedSystem)具有智能性。并不是所有具 有智能的程序都拥有知识库,只有基于知识的系统才拥有知识库,它将应用领域的问题 求解知识显式地表达,并单独地组成一个相对独立的程序实体——知识库。 1.2.知识库构建的国内外研究现状 20世纪80年代以来,国内外的研究者在大规模知识库的构建方面做了很多工作【l¨, 比较著名的有:WordNettl21,FrameNettl Concept Network Dictionary,简称CCD)[22】,概念层次网络(Hierarchical 【23】等等。这些知识库大多通过手工方式构建,且面向通用领域知识,可以满足大多数自 然语言处理系统的通用知识需求。 对于一些专门用途的自然语言处理系统,如文本分类系统、垃圾邮件过滤系统、反 动信息监控系统,以及各种个性化信息服务系统,系统处理的对象并不局限于通用领域 的自然语言(文本内容),更多的是专业领域里的自然语言(文本内容)。此时,适用于 通用领域的知识库无法满足系统的知识需求,需要另外为系统配备特定领域的知识库, 以满足系统对领域知识和工作目标的理解需求。这类知识库包含自然语言处理系统所需 的一个或若干个特定专业领域(如政治、数学、体育、艺术、信息科学、医药等领域) 内的相关知识,为系统提供这些特定领域内的概念、概念之问的相互关系以及概念的约 北京邮电大学博上学位论文 第一章绪论 束条件等【24】,为系统“理解’’特定领域的问题并顺利完成任务提供有力的知识保障。 过去,知识库主要通过手工方式构建,虽然有的知识库后期可以通过机器学习来不 断扩充和维护,但是前期完全依靠人工来构造知识库的结构、获取知识,仍然是一项费 时费力的工作,成为自然语言处理系统应用的一个瓶颈。因此,知识库的构建是自然语 言理解的一项基础性工作。 知识库构建的三大关键技术问题是知识表示、知识获取和知识推理。本文将着重讨 论知识获取问题,知识表示和知识推理的深入研究将作为本课题的后续研究内容。 1.2.1.知识获取 知识获取(Knowledge 知识源转移或转换到计算机内部的过程【4】。问题求解知识是指一些特定领域的事实、规 则和策略知识。知识源可以是领域专家,也可以是教科书、经验数据、技术报告、科技 论文或其它一些已经渗透领域专家知识的数据库和Web资源等。知识获取是构建知识 库的关键环节,~直被公认为是知识库系统的瓶颈问题,因此受到了广泛的重视和研究 [25,261 o 知识获取有两个基本途径:一个是从实践中逐步积累,把观察到的现象的共性核心 升华成为概念,把所积累的精华上升成为理论;另一个途径是由已有的知识通过推断产 生新的知识。前者是由信息到知识、由具体到抽象的过程,从逻辑上称为归纳;后者是 从知识到知识,由抽象到抽象的过程,在逻辑上称为演绎【6】。因此,知识获取的主要任 务包括: (1)对知识源中已有的知识进行理解、选择、抽取、汇集、分类和组织,转换成某 种形式的系统内部表示; (2)通过某种推理或学习机制,对已有的知识中产生新的知识; (3)检查并消除已有知识的矛盾性和冗余性,保持知识的一致性和完整性约束。 1.2.1.1.知识获取方式 根据知识获取的自动化程度,可以将知识获取分为人工获取、半自动获取和自动获 取三种方式【27之9】。 (1)人工的知识获取 早期的专家系统(如MYCIN)都是采用人工方式来获取知识。知识工程师通过与 领域专家进行交流(如非正式交谈、口述备忘录、观察学习等)或者阅读文字记载来获 北京邮电大学博士学位论文 第一章绪论 得知识,对其进行分析、综合、整理和归纳后,使用某种知识编辑软件存入知识库。其 工作方式如图1.4所示。 ,,一—、 领域专家 、一—.,/ /’ 卜 、J , 知识工程师b专知识编辑器b。 知识库 文字记载 、、一———一 √ 图1.4人工的知识获取方式 使用这种方式获取知识,很容易受到领域专家的知识完备程度、知识表达能力以及 知识工程师对知识的理解深度、对知识进行抽取、处理、表达的能力等因素影响,出现 Distortion)”现象。这是因为,每个领域都有自己特定的专业 “知识畸变(Knowledge 术语(俗称行话),领域专家很难使用通俗易懂的日常语言来表达这些术语并让知识工 程师真正领会。在脱离问题求解的具体环境时,领域专家对问题求解过程的描述,与他 们在实际操作中所采用的方法也有一定的区别。例如,领域专家在处理专业问题时,有 时候是依靠直觉和经验,这些直觉和经验往往很难采用数学理论或其他决定论的模型加 以精确刻画;在解题过程中,领域专家还可能下意识地使用一些日常生活中的常识,在 表述过程中却极易将其忽略;由于信息表示形式的影响、问题表达的需要以及其他心理 学上的原因,专家对知识的表达也可能会与实际经验不一致。因此,使用人工方式构建 的知识库,一般都存在知识规则量偏少、知识规则应用易产生决策偏差和失误、知识库 的开放性和透明度较低等缺附27,30J。 (2)半自动的知识获取 在半自动的知识获取方式中,知识获取分两步进行。首先,知识工程师与领域专家 交流合作,建立知识表达模型和智能知识编辑工具;然后,领域专家再使用知识编辑工 具直接与计算机交互,将结构化的知识(如关联规则等)存入知识库。其工作方式如图 1.5所示。 , 、 l知识工程师陪=冷知识表达模型 、p ≤≥ l领域专家陪==参知识编辑器 ”巴 图I-5半自动的知识获取方式 与人工的知识获取方式相比,使用这种方式所构建的知识库易扩充和维护,知识规 则可逐渐被完备。因此,目前大多数专家系统都采用这种方式获取领域知识。但是,使 北京邮电大学博士学位论文 第一章绪论 用这种方式所构建的知识库同样无法避免知识表达的模糊性与不确定性问题【2。71。 (3)自动的知识获取 这种知识获取方式的工作原理如图1-6所示。知识工程师在领域专家的指导下开发 专门的机器学习系统,将从知识源获得的问题求解实例输入到系统中作为“粗糙数据, 让系统直接从中获取或生成知识,填充知识库。在自动的知识获取方式中,有的系统还 可以从自身的运行实践中总结、归纳出新知识,发现和改正自身存在的错误,不断自我 完善,使知识库逐步趋于完整一致。 图l击全自动的知识获取方式 这是一种理想的知识获取方式,涉及到人工智能的多个研究领域,如模式识别、自 然语言理解、机器学习等。目前,关于自动知识获取的研究还处于探索阶段,能实现自 动知识获取的AI系统还较少,而完全使用自动方式建立复杂领域知识库的系统则几乎 没有。因此,通常所说的自动知识获取还包括人机交互式的半自动知识获取,它们都属 于知识获取工具的范畴。 L2.1.2.知识获取工具 自上个世纪五、六十年代以来,国内外AI工作者在知识获取工具的智能化和自动 化方面进行了大量的研究工作【矧。 早期的知识获取自动化研究主要针对知识库的知识自动维护和更新来开展。例如, Isolation 故障分离专家系统(Fault Expert 采用人机对话的方式,从知识源获取非结构化的故障分离信息,然后对其进行自动分析、 转化为系统内部的表示形式,并与知识库内原有的知识进行自动检测与融合,从而实现 知识库的自我完善。 之后,研究者们把机器学习的理论和方法应用到知识库的构建过程,使得知识获取 的过程逐步变得智能化。例如,我国中科院合肥智能所开发的实例学习系统SLFE(A Form SystemofLearning 农业病虫害的规则获取应用中取得了较好的效果。 北京邮电大学博士学位论文 第一章绪论 in Database$,数据库中的知识发现)技 Discovery 随着上世纪末KDD(Knowledge 术的兴起,研究者们开始把KDD技术应用到专家系统的知识自动获取。例如,南京信 息工程大学的黄瑞等人【29】提出了一种基于KDD的知识自动获取通用模型,一方面,可 以利用KDD过程发现的知识,与知识库中的原有知识自动进行知识检测与知识融合, 自动完善知识库;另一方面,还可以从知识库中自动生成指导KDD过程的约束,提高 KDD过程的针对性和发现模式的潜在有用性。他们将该模型应用到辅助石油天然气勘 中取得了较好的效果。 最近,知识自动获取的研究扩大到了知识管理(Knowledge Web知识获取等领域,产生了新的知识获取研究热点,如本体学习(OntologyLearning)、 W.eb)的知识自动获取等。 基于本体的知识获取、基于语义Web(Semantic 在本体学习方面,国内外很多研究机构进行了大量的研究工作,开发了不少本体学 of Kabir 习工具[33】,例如,德国University University 对相关领域的文本语料进行自然语言处理(包括词性标注、浅层句法解析、短语提取、 领域关键词提取等),使用基于规则或统计的方法来自动或半自动地抽取领域的相关概 念和概念之间的关系等本体知识。这些本体学习工具获得的只是本体知识的候选结果, 需要在用户的评价和确认后才能作为最终的结果添加到本体库中;也就是说,整个本体 学习过程还是需要人工干预,是在用户指导下进行的。 在基于本体的知识获取方面,荷兰的Henk.Jan Jess的基础上建立了基于本体的知识系统,该系统可以根据已有的领域本体,自动识别 领域的知识推理规则,抽取和检验领域事实,实现基于本体的知识获取。国内中科院计 算所的曹存根等人对基于领域本体的知识获取做了大量工作,研究成果有基于医学形式 本体的医学知识获取和知识分析系统㈣】、基于本体的数学知识获取管理平刽4l】等。 在基于语义Web的知识获取方面,研究者也进行了积极的探索和实践。例如,中 科院计算所智能信息处理重点实验室开发了面向语义的多主体知识管理系统 取、组织和服务;清华大学知识工程研究室开发了基于语义Web的本体数据挖掘平台 W曲AidedRich SWARMS(Semantic Mining 域知识的挖掘,如领域本体数据的生成和存取、基于语义的搜索、领域本体数据的可视 北京邮电大学博士学位论文 第一章绪论 化和导航等。 1.3.论文研究背景和意义 尽管国内外研究人员针对知识库构建做了很多研究工作,但是,目前知识库构建仍 然存在不少问题142J。面临的主要问题有: (1)知识源 传统的知识源主要包括领域专家、教科书、技术报告、科技论文和其它一些已经渗 透领域专家知识的数据库等。随着现代信息技术和互联网技术的飞速发展,Web上大量 以电子文档形式存在的资料在知识源中占据越来越重要的地位,这些语料在Web上分 散储存,且文档格式各异,亟需开发新技术,从Web上收集这些语料进行预处理和筛 选,以从中选取适量的、具有代表性的文档进行知识获取。 (2)领域知识获取 现有的一些大规模知识库都是关于通用领域知识的,不能满足专业领域的自然语言 处理系统对问题求解的知识需求。因此,需要获取专业领域知识,构建特定领域的知识 库,为自然语言处理系统“理解特定领域的问题并顺利完成任务提供知识保障。领域 知识包括专业领域的概念、概念之间的相互关系以及概念的约束条件等。Web上绝大多 数语料都是自由文本或半结构化文本,在利用这些语料获取领域概念和关系的过程中, 还存在许多特殊困难,需要借鉴自然语言处理、机器学习和文本挖掘等领域的先进技术, 对其进行深入的研究。 (3)知识表示方法 目前,人们已经提出了各种各样的知识表示方法,如逻辑表示法、语义网络表示法、 产生式系统表示法、框架表示法和面向对象表示法等。对同一知识可以采用不同的表示 方法,然而,在求解某一问题时,不同的表示方法会产生完全不同的效果。这些知识表 示方法在单独使用时普遍存在知识表示形式单一,知识的整体形象难以把握,知识的组 织、管理和维护困难等缺点。因此,需要根据自然语言处理系统对领域问题求解的需要, 选择几种比较合适的知识表示方法并用,以取得优势互补的效果。 (4)不确定知识的表示、处理和获取 从知识的确定程度来分,知识可分为确定性知识和不确定性知识两类。确定性知识 是可以给出其真值为“真”或“假”的知识,这类知识是可以精确表示的知识。不确定 性知识是具有“不确定”特性的知识(这里的不确定性包含不精确、不完备和模糊等涵 义),这类知识的真值并非“非真即假’’,可能处于某种中间状态。不确定性是自然语言 北京邮电大学博二匕学位论文 第一章绪论 的固有属性。因此,不确定知识的表示、获取和推理是人工智能和知识工程领域的重要 课题之一。针对不同类型的不确定知识,研究者提出了各种理论和方法,包括确定性理 论、主观Bayes方法、可能性理论、证据理论、灰色系统理论、概念图、粗糙集理论、 基于信比概念的知识处理以及集对分析等等【45】。这些方法和理论各有优缺点,存在一定 的互补性。近年来,人们认识到了这种互补性,开始尝试不同理论方法的融合以弥补单 一方法的局限性,如将模糊和粗糙集相结合,对粗糙集进行模糊推广来解决不确定知识 的表示、处理和获取。在这些方法中,有的还处于发展阶段,在实际问题中的应用也有 待继续研究。 (5)知识推理 知识推理就是利用知识库中的知识进行推理,从而得出结论的过程。知识库的知识 推理主要通过推理机来实现。知识推理所涉及的问题有:知识库的搜索、目标的控制、 模式匹配的方法、推理的策略,以及对不确定性知识和可拓知识的评价等。知识推理的 方式在很大程度上依赖于知识的表示方法。知识表示方法的不同决定了知识的选择和运 用方式不同,即推理策略的不同。知识库构建的最终目标是知识的应用,因此,知识推 理是知识库构建的核心问题之一。 本文针对领域知识的获取问题,主要从下列几个方面做了一些研究工作: · 研究网络文本信息去重算法:期望能够在提高抵抗文档噪声能力的同时,减少 将相似文档误判为信息冗余文档的几率,以提高领域知识源获取过程中的冗余 信息过滤性能。 · 研究术语自动抽取算法:试图利用科技论文话语标记的认知功能,实现中文术 语的快速自动抽取,在保证术语抽取整体性能的同时,提高低频术语的抽取效 果。 · 研究术语关系自动获取机制:针对专业领域术语的特点,综合术语的内部特征 和外部特征,从多个层面获取术语间的各种关系。 · 研究科技论文初审辅助系统,尝试使用领域知识来辅助科技期刊的编辑人员完 成初审工作。 本课题得到国家自然科学基金(60496327)“非规范知识处理的基本理论和核心技 术”,(60575034)“信息一知识一智能转换理论:智能生成机制的原理与算法’’,国家863 142 项目(2001AAl 10)“中文信息处理的基础和应用基础研究”、(2002AAl 17010.07) 北京邮电大学博士学位论文 第一章绪论 信息服务系统模型与算法研究”的资助。作者希望本文的工作能在理论和技术上对知识 库构建技术、尤其是领域知识的获取研究发展起到积极的推动作用。 1.4.论文研究工作概述 领域知识是在某一个特定(专业)领域内的概念、概念之间的相互关系以及概念的 约束条件的集合;而术语是特定专业领域中概念的词语指称,是概念的语言表达方式, 是通过语音或文字来表达或限定科学概念的约定性语言符号,是领域知识表示的基本单 元。因此,领域知识获取的目标,就是实现特定专业领域术语的自动抽取、关系发现和 公理获取。 本文将针对领域知识获取的相关问题进行研究,主要包括以下几个方面: 1)针对领域知识源获取过程中的网络冗余信息问题,提出了一种基于关键词序列 的网络文本信息去重算法KSM。以全信息理论为依据,综合考虑文档的语法 信息和语义信息,使用文档的关键词序列来描述其结构特征和内涵特征,通过 比较主题相似文档的关键词序列的重叠度,判断是否存在信息冗余现象。在各 类网络文本隐式重复的检测实验中,KSM算法的总体准确率和召回率分别达 到了99.2%和97.7%;与经典的文本信息去重算法相比,KSM算法显示了更好 的性能,在提高抵抗文档噪声能力的同时,减少了将相似文档误判为信息冗余 文档的几率。 2)针对低频术语抽取召回率较低的问题,提出了一种基于语言认知理论的中文术 语自动抽取算法。根据语言认知过程中的“最大化收益和最小化成本”原则, 借助科技论文的话语标记,在C.value测度和SCPf测度中引入候选术语的加 权词频因子,提出了一种MC.SCP测度,用于候选术语的单元性和术语性的综 合评价。在车牌识别领域的术语抽取实验中,基于MC.SCP测度的算法召回率 和准确率分别是96.5%和77.8%,低频术语的召回率和准确率则分别是96.2% 和79.3%;在保证术语抽取整体性能的同时,显著改善了低频术语的抽取效果。 3)针对术语关系类型的多样化问题,提出了一种基于多策略的术语关系自动获取 模型。根据科技论文的语言学特点,综合术语的内部特征和外部特征,从多个 层面发现和获取术语问的层级关系和非层级关系,包括:基于规则的术语同义 关系获取、基于结构相似性的术语层级关系获取、基于完全加权关联规则的术 语非层级关系获取、基于粒子群的术语聚类等。在术语非层级关系获取中,提 出了一种基于非频繁项集多重剪枝检测的完全加权关联规则挖掘算法—— 北京邮电大学博士学位论文 第一章绪论 AWARM.MPIS,用于完全加权关联规则的频繁项集生成和剪枝,取得了良好 的效果;在术语分组关系获取中,提出了一种基于粒子群的术语聚类算法,使 用术语的结构相似性(内部特征)和关联度(外部特征)来评价术语的语义相 似性。实验结果表明,其平均运行时间与迭代次数比K-Means提高了2个级别。 4)针对多领域科技论文的大量出现与编辑人员专业知识有限的问题,提出了一个 领域知识制导的科技论文初审辅助系统模型。根据科技期刊的出版要求和科技 论文的特点,结合编辑人员的工作经验,将编辑初审细化为4个方面的评判, 以此为依据开发了一个原型系统,并使用《计算机工程与应用》和《计算机科 学与探索》的2365篇投稿论文为语料进行了性能测试。实验结果表明,该系 统可辅助编辑人员淘汰35%左右的低质量稿件,提高了编辑的初审效率。 1.5.论文组织结构 本文总共分为七章。 第一章绪论 主要介绍本文的主要研究内容。首先,介绍知识库的相关概念;然后,对目前知识 库构建的国内外发展现状做了简要分析,并介绍了知识获取的任务、方式和工具;最后 介绍本文的研究背景和研究意义,并讨论本文研究的主要内容。 第二章相关工作 主要介绍领域知识获取的相关工作。首先,对领域知识的相关概念进行了介绍;然 后,对术语自动抽取和术语关系获取的研究现状进行了详细的介绍和分析。 第三章基于关键词序列的网络文本信息去重算法 针对领域知识源获取过程中的网络冗余信息问题,提出了一种基于关键词序列的网 络文本信息去重算法KSM。首先,简单回顾和分析了现有的文本信息去重算法。然后, 详细介绍了KSM算法的基本思想和实现流程;最后,进行实验分析。 第四章基于语言认知理论的中文术语自动抽取 针对低频术语抽取召回率较低的问题,提出了一种基于语言认知理论的中文术语自 动抽取算法。首先,从语言认知的角度分析科技论文的语言学特征;然后,提出基于语 言认知理论的中文术语抽取算法模型,并对其进行详细介绍;在改进C.value测度和 SCP f测度的基础上,提出一种综合评价术语单元性和术语性的MC.SCP测度。最后, 进行实验分析。 第五章基于多策略的术语关系自动获取 北京邮电大学博士学位论文 第一章绪论 针对术语关系类型的多样化问题,提出了一种基于多策略的术语关系自动获取模 型。首先,给出该模型的整体框架;然后,详细介绍该模型的各个关键模块,包括:基 于规则的术语同义关系获取、基于结构相似性的术语层级关系获取、基于完全加权关联 规则的术语非层级关系获取、基于粒子群的术语聚类等;同时,对各关键模块进行实验 分析。 第六章领域知识在科技论文初审辅助系统中的应用 针对多领域科技论文的大量出现与编辑人员专业知识有限的问题,提出了一个领域 知识制导的科技论文初审辅助系统模型。首先,根据科技期刊的出版要求和科技论文的 特点,结合编辑人员的工作经验,将编辑初审细化为4个方面的评判;然后,以此为依 据,实现一个科技论文初审辅助系统,使用领域知识来指导论文的初审评价。最后进行 实验分析和讨论。 , 第七章结束语 对全文工作进行总结,并介绍了下一步研究的方向。 北京邮电大学博上学位论文 第二章领域知识获取的相关工作 第二章领域知识获取的相关工作 知识库是将传统的人工智能技术和数据库技术相结合的产物,知识库的构建技术 (包括知识表示、知识获取和知识推理)也集成了这两个领域的最新技术。 现有的一些大规模知识库主要是面向通用领域知识需求研发的,不能满足专业领域 的自然语言处理系统的问题求解需求。因此,如何快速、高效地获取专业领域知识来构 建领域知识库,为自然语言处理系统“理解”特定领域的问题并顺利完成工作任务提供 知识保障,是自然语言处理系统的关键问题之一。 本章首先介绍领域知识的相关概念,然后详细介绍领域知识获取相关技术(包括术 语自动抽取和术语关系获取)的研究现状,最后对这些技术进行简单的总结,确定本文 研究的技术路线.领域知识的相关概念 2.1.1.领域知识 “领域知识’’一词来源于人工智能领域,主要应用于一些自然语言理解系统和基于 D’Hondt等人的研究报告【24】: 知识的专家系统。它的明确定义最早见于1999年Maja “Domain thecollection in indicates of adomain,relations knowledge conceptsexisting betweenthese andconstraintsonthese concepts concepts.”也就是说,领域知识是指在某 一领域内的概念、概念之间的相互关系以及有关概念的约束的集合。 随着知识工程的兴起,研究者又从知识工程的角度,给“领域知识赋予了如下涵 心[461. /~ · 领域知识是一个概念化模型,这个概念化模型包含概念和概念之间的关系; · 领域知识是概念和概念之间的约束; · 领域知识是描述如何推导或计算出新概念和新概念之间关系的规则。 根据不同领域和不同的应用需要,领域知识这一术语的定义也各有不同。例如,在 aboutenvironmentin the the which 软件工程领域,“领域知识’’的定义是:“Knowledge targetsystemoperates.,即,“与系统运行环境相关的知识。 借鉴前人的观点【67j,本文认为,领域知识属于认识论范畴,是主体关于某个特定 专业领域的事物所处状态及其变化规律的表述。由于主体不仅具有感知能力而且具有理 北京邮电大学博士学位论文 第二章领域知识获取的相关工作 解能力和目标,因此,这些表述不仅包括状态及其变化规律的形式(形态性知识),而 且包括它们的含义(内容性知识)以及它们相对主体目标而言的价值(效用性知识)。 也就是说,领域知识由其相应的形态性知识、内容性知识、效用性知识构成。这种情形, 称为领域知识的三位一体。 定义2.1设某个特定专业领域内的事物X具有Ⅳ种可能的状态:z,,…,xn,…, 柳,那么, (1)状态而(力=1,…Ⅳ)在形态上呈现的肯定程度称为状态而的肯定度,记为臼, 且Vn,0≤巳≤1;X的各个状态的肯定度所构成的集合,称为X的肯定度的(广 义)分布,记为C,它刻画了该事物状态变化规律的形式。 (2)状态xn(垆l,…Ⅳ)在逻辑上真实的程度称为状态翰的真实度,记为岛,且 Vn,0≤乙≤1;X的各个状态的逻辑真实度所构成的集合,称为X的真实度的 (广义)分布,记为L它刻画了该事物状态变化规律的含义。 (3)状态xn(刀=1,…Ⅳ)相对于主体目标所显示的价值称为状态而的效用度,记 为uII,且Vn,0≤Un≤1;X的各个状态的效用度所构成的集合,称为X的效用 度的(广义)分布,记为阢它刻画了该事物状态变化规律的价值。 因此,事物X的领域知识可以使用如式(2.1)所示的矩阵来表示: XI,……X N n,……X CI,……Cn,……CN (2一1) tl,……tn,……tN UI,……Un,……UN 特别地,在自然语言处理过程中,领域知识是一个非空有限集合,描述了该领域内 的概念、概念之间的相互关系、概念和概念之间的约束,以及如何推导或计算出新概念 和新概念之间关系的规则。 2.1.2.概念 概念是人们根据客体(可感知或可想象到的任何事物)的特性概括而得到的心理构 想【4H引。领域知识的概念化就是将某一知识领域内的若干客体根据其共有特性抽象形成 心理上的反映(即一般概念)的过程;这些共同特性在心理上的反映,就称为该概念的 特征;而概念的约定指称,就是术语。从哲学的观念来看,概念是通过特征的独特组合 而形成的知识单元,而指称(即术语)是概念的间接表达方式。 一个概念所反映的客体的全部特征称为概念的内涵,而概念所指客体的范围则称为 北京邮电人学博十学位论文 第二章领域知识获取的相关-T作 概念的外延。例如,船舶是一种水路交通工具,因此,“船舶的内涵是“水路交通工 具”;与此同时,“船舶这一概念的外延包括渔船、客轮、货轮以及其他形式的船舶。 一般来说,概念的内涵越丰富,外延就越小;反之,内涵越贫乏,外延就越大。 在一个知识领域中,概念被赋予约定的指称(即术语),概念彼此之间存在着各种 不同形式的相互联系。根据一对概念之间是否存在包含关系,可以将概念问关系分为层 Relation)【48】。 级关系(HierarchicalRelation)和非层级关系(Non-Hierarchical (1)层级关系 根据概念间的包含关系,可将概念区分为上位概念(SupcrordinateConcept)和下 位概念(Subordinate concept)。上位概念称为大概念或广义概念,下位概念称为小概念 或狭义概念。按同一标准(同一维度)划分并处于同一层面的概念称为并列概念 (Coordinate Relation)或整体一部分关系 Concept)。层级关系就是属种关系(Generic (Partitive Relation)中的上位概念和下位概念问的关系。在国外文献中,层级关系常被 Relation)。 称为分类关系(Taxonomic 根据层级关系的定义,可以将其分为以下两类关系: ①属种关系,指概念外延的包含关系。在一对具有属种关系的概念中,内涵较窄 的大概念叫做属概念(Generic Concept)。种概念的外延是属概念外延的一部分,种概念除了具有属概念的一切特征外, 还具有本身独有的区别特征。例如,概念“词’’和“代词”之间即存在属种关系,“词” 是属概念,“代词”是种概念。 ②整体一部分关系,指客体间的包含关系。小概念对应的客体是大概念对应的客 体的组成部分,因此,这里的小概念又叫做部分概念(Partitive Concept),大概念叫做 整体概念(ComprehensiveConcept)。例如,概念“人体”和“脑、“心、“肺、“肾、 “肝等存在整体一部分关系。 (2)非层级关系 Relation)。概念间的非层级关系反映了客体间的某些关系,其类型多种多样,主要可分 为以下两类: Relation),包括空间(位置)关系、时间关系、因果关系、 ①序列关系(Sequential 源流关系、发展关系等; ②联想关系(AssociativeRelation),又叫做主题关系或语用关系,包括推理关系 (前提一结论关系)、形式一内容关系、函数关系(自变量一因变量关系)、物体一属性 关系、结构一功能关系、行为一动机(目的)关系、行为一客体关系、生产者一产品关 北京邮电大学博士学位论文 第二章领域知识获取的相关工作 系、工具一操作关系等。 2.1.3.术语 术语是特定专业领域中概念的语言指称,是概念的语言表达方式【47.铝】。在《中国大 百科全书》中,对“术语的释义是“各门学科中的专门用语。术语可以是词,也可以 是词组,用来正确标记生产技术、科学、艺术、社会生活等各个专门领域中的事务、现 象、特性、关系和过程。 术语根据其构成,可以分为简单术语和复杂术语1501。 (1)简单术语 Term或Uni.Word 简单术语(Simple Term)是指只有一个词根的术语,它的任何组 成部分都不能构成一个更短的术语。例如,“声’’、“光、“电”、“葡萄”、“珠穆朗玛 等都是简单术语,它们都不能再分解为更小的术语单位。 (2)复杂术语 Term或Multi.WordTerm)是指由两个或更多词根构成的术语; 复杂术语(Complex 它由简单术语构成,或部份由简单术语构成,其构成主要有联合式、偏正式、支配式、 补充式、陈述式、重叠式等六种。例如,“声波”、“光束”、“电压’’、“葡萄干、“电压.. 表、“车牌识别系统”等都是复杂术语。其中,“车牌识别系统”由三个基本的简单术 语“车牌、“识别”、“系统组合而成,并且这三个基本的简单术语之间存在一定的语 义或语法关系。 . 在一个术语系统中,绝大多数的术语都是复杂术语,例如,在冯志伟编制的“英汉 术语形成的经济律,在专业领域中出现新的概念时,人们往往不是重新造一个新的简单 术语来表示它,而是把原有的简单术语结合起来,构成复杂术语来表达它。因此,尽管 随着专业领域的科学发展和技术进步,会不断涌现新的概念,但是,该领域内部的简单 术语的数量却基本不会发生变化,而以简单术语为构成单元的复杂术语却可以不断地繁 衍,从而使得在一个术语系统中,复杂术语的数量占压倒性的优势。 术语根据其使用范围,还可以分为纯术语、一般术语和准术语。其中,纯术语的专 业性最强,如“等离子体”,具有单义性和严密性等特点,其通行范围有限,使用的人 较少;一般术语较之专业性较弱,如“压强’’;而准术语的专业性最弱,如“塑料”,已 经渗透到人们的生活中,逐渐和一般词汇相融合。 根据GB/T10112一-959,术语的选择和构成具有以下几个特点【4。也 北京邮电大学博士学位论文 第二章领域知识获取的相关工作 (1)单名单义性:在某一特定专业范围内,一个概念只有一个指称,即一个概念只 能使用~个术语来表示(单名性);术语和概念之间是一一对应的关系,即一 个术语只表示一个概念(单义性)。 (2)顾名思义性:又称透明性。这里的“义”是指定义,即对概念的语言描述。术 语应能准确扼要地表达定义的要旨。 (3)简明性:信息交流要求术语尽可能的简明,以提高效率。 (4)派生性:又称能产性。术语应便于构词,特别是组合成词组使用的基本术语更 要满足此条件。基本术语越简短,构词能力越强。 (5)稳定性:使用频率较高、范围较广,已经约定俗成的术语,没有重要原因,即 使是有不理想之处,也不宜轻易变更。 (6)合乎本民族语言习惯:术语往往由本民族的一般词汇(包括一些词素)构成, 因此术语要适合本民族的语言习惯,用字遣词,务求不引起歧义,不要带有褒 贬等感情色彩的意蕴。在某些特殊情况下,术语也可来自外来语。 从计算语言学的角度来看,术语还具有以下特点【52】: (1)语言完备性 for 术语是语言符号,作为专门语言(Language Purpose,LSP)的一部分,术语 Special 首先是一种语言符号,符合语言学中的语法、语义、语用等方面的规律。判断一个符号 串是否术语,首先要判定其是否一个合法的语言单位。 (2)单元性(Unithood) 术语在结构上具有稳定性,也就是术语内部各个部分之间的联合强度大。单元性不 仅与复杂术语相关,而且与其他复杂的语法搭配或常用表达也相关。术语内部结合紧密 的特征可以通过计算组成术语的词之间的关联程度体现出来。 (3)术语性(Termhood) 术语是一种具有很强的领域特征的词语,它与一个特定领域的概念紧密关联。因此, 术语性又称为领域性,可以通过其领域术语构件体现出来。 2.2.术语自动抽取的研究现状 术语抽取是术语库建立以及术语规范化的基础,是术语学与术语标准化工作的重要 内容,是领域知识获取领域的一个重要课题。 以前,术语抽取工作主要采用人工方式,其优点是规避了尚未成熟的自然语言处理 技术;但是,当今社会的科技发展和技术进步一日千里,各方面的术语都不是静态的, 北京邮电大学博士学位论文 第二章领域知识获取的相关工作 而是动态发展的,旧的术语逐渐消亡,新的术语以更快的速度不断涌现,在流动性如此 强的领域,面对近乎无限的语料,人工寻找术语无异于海底捞针,代价巨大而进展缓慢。 因此,结合语言学研究的成果,利用计算机等先进的信息技术手段,使术语抽取工作自 动进行,已成为术语标准化工作的一个必然趋势。 目前,国内外研究学者对术语自动抽取工作做了大量研究,并取得了一定的成效, 概括起来,主要有以下几种方法【5引。 2.2.1.基于规则的方法 这种方法主要是基于语言学知识进行的,通过分析术语的词素(morpheme)、词根 (root)、语义网络等特征,使用基于浅层句法分析的名词短语最大匹配来识别术语出现 的位置以及它们的边界。 例如,Frantzi等人阱】对术语的构成模式进行总结,得到了以下三种词法过滤器: · Noun+Noun ·(AdjlNoun)+Noun ·((AdjlNoun)+l((AdjlNoun)奉(NounPrep)?)(AdjlNotm)木)Noun Frantzi等人就这三类词法过滤器对术语抽取结果的影响进行了详细的测试,他们的 实验结果表明,使用这三类词法过滤器均可以较准确地获得候选术语。 在中文方面,台湾中央研究院资讯科学研究所的SOAT工具【3s】定义了四种抽取规 PAT Tree发现领域的高频新词,作为领域概念的种子词(root);然后再使用抽取规则, 从词性标注后的中文语料库中获取与种子词相关的概念(及关系)。表2.1和表2.2给 出了SOAT在抽取与一般名词(Na)具有层级(或非层级)关系的关键词时所用到的 部分规则。 北京邮电大学博一卜学位论文 第二章领域知识获取的相关T作 表2-1SOAT中一般名词(Na)的属种关系抽取规则 抽取规则 抽取目标 例子 A+Na(root) A 信托(A)股票州a) Na+Na(root)Na 水泥(Na)股票州a) Nb+Na(root)Nb 三阳∞)股票(Na) Nc+Na(root)NC 台泥(Nc)股票(Na) Ncd Ncd+Na(root) VH+Na(root)VH 上市(vii)股票(Na) Nc+Nc Nc+Nc+Na(root) 华航(Nc)公司州c)股票(Na) Na+Na 自营商(Na)库存(Na)股票(Na) Na+Na+Na(root) VH+Na VH+Na+Na(root) 公营(vH)事业(Na)股票州a) 表2-2SOAT中一般名词(Na)的属性关系抽取规则 抽取规则 抽取目标 例子 Na(root)+NaNa 网路州a)主机(Na) Na(root)+NeNc 网路州a)中-tl,fNc) Na Na(root)+DE+Na 网路科a)的(DE)连接埠(Na) 从表2.1和表2.2可以看到,SOAT中的概念及关系抽取规则都是由一个特定名词 (root)和

  ·(E)-α-锡基-α,β-不饱和酯合成及在高选择性合成反应中应用.pdf

  ·“不”和“没有”认知考察及其留学生习得“不”和“没有”偏误的研究.pdf

  ·“不激不厉,风规自远”___八大山人和虚谷“鱼”题材绘画解析.pdf

  ·24周不同量钙磷饮食对尿毒症大鼠甲状旁腺结构、功能及其死亡率的影响.pdf

  ·30万吨合成氨装置MD100-300%2f13型锅炉给水泵运行技术理论及应用研究.pdf

  ·46、XY+DSD基因诊断流程的建立和46%2cXY女性%2fAIS%2f5α-RD2缺乏的基因诊断.pdf

  “原创力文档”前称为“文档投稿赚钱网”,本网站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】

本文链接:http://mangerdulion.com/yuyanzhishiku/68.html