我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019跑狗图高清彩图 > 语义场 >

短语结构规则

归档日期:08-29       文本归类:语义场      文章编辑:爱尚语录

  Language Processing,自然语言处理)已有长达半个世纪的历史。 在

  派一个合适的词性(part of speech);之后再用句法规则把句子里包

  本文要提到的第一个事实是:短语结构语法(Phrase Structure

  Grammar,简称PSG)不能有效地描写自然语言。PSG在Chomsky语言学理

  规则(10)表示的也是一个NP,但“N1+N2”先结合,还是“N2+N3”

  齐夫率(Zipfs Law)。Zipf是一个统计学家和语言学家。他提出,如

  一个语料库里出现的频度(frequency)记作F,而且根据频度的降序对

  词次数(tokens)的近一半。假如语料库的规模是100万词次, 那么其

  库含有5万词型(types),那么其中的一半(也就是2.5 万条左右)在

  现它们的分布同样是扭曲的,大体表现为齐夫率(Aarts et al. 1990)

  来被Chomsky学派采用来扩展PSG的描写能力。现在无论是在语言学界还

  中心语(head)那里继承过来的。在Chomsky的理论中这叫做X-bar 理

  如果X=N,就是一个具有名词特性的N-bar。当一条PSG 规则的右部匹

  集描写背景下产生的。合一(unification )算法则是针对复杂特征集

  在NLP领域中,第二个里程碑式的贡献叫词汇主义(lexicalism )

  。语言学家Hudson(1991)曾宣称词汇主义是当今语言学理论发展的头

  Cognizer,动作客体被具体化为事物Item,并根据特定体动词的性质增

  欧洲有一个Euro-WordNet,以类似的格式来表现各种欧洲语言的词汇层

  com/nlp/)。其设计思想是试图用三元组(triple )作为全部知识的

  Dictionary)及一部百科全书(Encarta)中的全部句子进行分析, 获

  得每个句子的逻辑语义表示(logical form,简称LF)。而LF本来就是

  由三元组构成的,如(W1,V-Obj,W2)表示:W1是一个动词, W2是其

  宾语中的中心词,因此W2从属于W1,它们之间的关系是V-Obj。 比如(

  ,W2),W1代表一个偏正短语中的中心词(head word),W2 是其修饰

  语(modifier),因此W2从属于W1,它们之间的关系是H-Mod。

  W 代表一个文本中顺序排列的n个词,即W=w[,1]w[,2]…w[,n], 则统

  示在w[,1]出现的情况下第二个词w[,2]出现的条件概率,依此类推。不

  式中数学符号argmax[,w]表示对不同的候选词序列W计算条件概率P (W

  │speech signal)的值,从而使W[*] 成为其中条件概率值最大的那个

  计算,计算机找到了最适合当前输入语音信号speech signal的词串W[

  般采用式(5)所示的三元模型;P(speech signal│W)叫做声学模型

  则,叫做TAGGIT(1971),另一个应用词类的二元模型,叫做CLAWS (

  件概率。数学符号argmax[,C] 表示通过考察不同的候选词类标记序列C

  P(c[,i]│c[,i-1])是词类标记的转移概率, 也叫做基于词类的二元

  Collins & Brooks(1995)实验使用的语料库是宾夕法尼亚大学标注的

  为2,606个,因此平均精确率为84.1%。这与上面提到的上限值88.2%

本文链接:http://mangerdulion.com/yuyichang/461.html