

事件信息结构分析
- 期刊名字:中文信息学报
- 文件大小:678kb
- 论文作者:杨尔弘,曾青青,李婷婷
- 作者单位:北京语言大学国家语言资源监测与研究中心平面媒体语言分中心,首都体育学院国际教育学院
- 更新时间:2020-09-25
- 下载次数:次
第26卷第3期中文信息学报Vol. 26, No.32012年5月JOURNAL OF CHINESE INFORMATION PROCESSINGMay, 2012文章编号: 1003-0077(2012)03-0092-06事件信息结构分析杨尔弘”,曾青青',李婷婷2(1.北京语言大学国家语言资源监测与研究中心平面媒体语言分中心,北京100083 ;2.首都体育学院国际教育学院,北京100191)摘要:该文通过考察事件词在文本篇章结构中的分布方式,指出突发事件新闻报道文本中包含主线信息链和副线信息链。主线信息链中包含了文本的事件信息,是事件信息提取重点考虑的文本内容部分;副线信息链则由文本结构中的“评价”、“背景”以及“情节”部分的细节信息等组成,是事件信息提取时可以忽略的文本内容部分。事件信息的.结构可以进一步分解为前核心事件链、核心事件链、次生事件链和后次生事件链。该文通过定义事件词,以其为触发.探索了事件信息结构的识别与获取,并借助《知网》(HowNet)提高了事件词对信息刘画的有效性和区分度。关键词:事件词;事件信息结构;主线信息链;剐线信息链中圈分类号: TP391文献标识码: AAnalysis of Event Information Structure in TextYANG Erhong' , ZENG Qingqing' ,LI Tingting'(1. National Language Resources Monitoring and Research Center Print Media Language Branch,Beiing Language and Culture University, Beijing 100083, China;2. International Education School, Capital University of Physical Education and Sports, Beijing 100191. China)Abstract: The distribution of event word in text reveals the event information structure, Through observation on thereal News texts of the sudden event, our research indicates that the news text is composed of two elements. themain information chain and the second information chain. The main information chain is just the texrs event informa-tion structure including the preceding-core event information chain, the core event information chain, the secondaryevent information chain and the post generation event information one. Also, we study the event informetion struc-ture detection with the event word as a trigger, adopting the HowNet to improve the event word based event infor-mation structure detection.Key words: event word; event information structure; the main information chain; the second information chain件抽取研究,大多以这样的定义为基础:以若干特1引言定的事件类型为目标,研究事件模板的获取以及事件的论元识别6-10。事件模板主要依靠经验给出种随着互联网的广泛应用,准确地从海量.无序、子模板或聚类的方式获(取0101];论元角色多以计杂乱无结构的网页文本中提取用户感兴趣的事件算事件模板论元的语义约束与词语的相关属性之间信息是信息抽取领域的重要研究课题川。在美国,的对应关系进行填充6.12。DARPA.NIST组织的MUC、ACEL24J等评测任务目前,从整个语篇的角度探索事件信息的分布.中,对事件信息抽取给出了明确的定义。当前的事与事件抽取技术的研究还较少。文献[7]尝试了从收稿日期: 2011-09-11定稿日期: 2012-01-31中国煤化工基金资助:国家社科基金资助项目(06YY047)作者简介:杨尔弘(1965- ),女 ,教授,主要研究方向为语言信息处.MHCNMHG研究方向为语言信息处理;李婷婷(1983- ),女 ,硕士,主要研究方向为语言信息处理。3期杨尔弘等:事件信息结构分析93语篇中过滤非事件句子,文献[13]探索了语篇中事篇章中的分布,具有表达简洁、目标明确、可操作性件与事件的关系,研究事件之间的推理。强的特点。人工标注文本中出现的事件词,得到每本文针对突发事件新闻报道,从可操作的角度,类文本的事件词集合0,事件信息的分布可以通过将“事件”定义简单化一与突 发事件相关的动作、集合中事件词的分布情况获得。状态改变都定义为一个事件,事件以事件词为标示,标注过程中发现:“情节”部分基本上囊括了事事件词可以是动词、名词化(Nominalizations)、形容件的信息,是事件信息抽取的重要部分;但此外,“情词等。在此基础上,研究事件信息在报道文本中的节"还包括了一些描述事件特别细节的句子和一些分布,从而确定文本中事件信息的组织方式,寻找到事件词缺省的句子。由此,在戴伊克新闻图式结构篇章结构和事件信息结构之间存在的联系,为事件的基础上,进一步对突发事件新闻报道文本定义“主信息的形式化描述和准确定位服务。线信息链”、“副线信息链”,将报道文本的篇章结构与事件信息对应。2突发事件文本的篇 章结构和事件信息结构(1)主线信息链。主线信息链是指报道“情节”部分中除去细节信息所在句子和事件词缺省的事件2.1事件信息在篇章结构中的分布调查信息所在句子之后,由事件词关联起来的信息链。戴伊克(VanDijk)在《作为话语的新闻y18]_此信息链是以事件词为显性标记,将报道中的突发书中概括了新闻文本的假设性话语结构图式,如.事件、核心事件及与该核心事件相关的各类事件关联在一起,是文本的中心内容部分,是篇章结构中的图1所示。.主体部分,是读者进行篇章阅读和理解的最重要的新闻报遭部分。(2)副线信息链。副线信息链是由“评价”部概述故事分、“背景”部分以及“情节”部分中的细节信息和事件词缺省的事件信息所在的句子构成。从信息抽取标题导语情景评价的角度来说,副线信息链的信息不作为信息抽取的关注对象。副线信息链的作用在于使读者加深对新情节背录口头反应结论闻报道的认识和理解,深化新闻的主题。突发事件新闻报道中的主副线信息链与新闻图主要事件后果式结构成分的对应关系如图2所示。语境历史预测评细|背景环境以前事件节t图1假设性新 闻图式结构高p言|以戴伊克阐释的假设性新闻图式结构为基础,连|了解文本描述的事件信息,需要阅读“主要事件”和图2主副线信息链和新闻图式结构成分的对应关系“后果”组成的“情节”部分,可以忽略图式中的“背景”及“评价”信息。换言之,可以假定“情节”部分是由此,在戴伊克的话语宏观结构理论下,突发事突发事件的主体,也是事件信息抽取的主要部分。件新闻报道的篇章结构进一步由主线信息链和副线本文选取了关于火灾.地震.食物中毒等方面的新闻信息链两个下位的结构组成。通过考察发现,突发报道文本各200篇以及关于恐怖袭击的新闻报道80事件文本中构成主线信息链的句子和副线信息链的篇,以此作为语料,调查报道的篇章结构以及报道的句子没有明确的界限,它们总是交织在一起。如主体内容---事件 信息在文本中的分布,以期发现新图3中国煤化工闻的图式结构和事件信息结构之间的关系规律。.HCNM H G_事件词是文本中体现事件信息的重要元素,以①地晨尖文本事忏阿个数为1Z.大夹类文本事件词个敷为164,食物中毒类文本事件词个数为202.恐怖袭击类类文本事件词事件词作为事件信息的核心表达,调查事件信息在个数为115.94中文信息学报2012年背景信息....( 副线信息链事|事主线信息链件L-t件牛主观信息细节信息图3突发事件文本信息链燃、短路、使用不当、操作不当、纵火、闪电、雷击、释2.2事件信 息结构放烟花、燃放烟花炮竹、取暖、泄露、拆除、熏制、焊前文定义的主线信息链即为突发事件文本的信接超负荷、故障、争执]息结构,主线信息链上关联了事件词和事件论元,这(3)次生事件信息链。次生事件是由核心事件些是事件信息抽取的对象。通过对四类突发事件,直接造成的不可抗拒的事件,是事故造成的直接影.共计680篇新闻报道文本的主线信息链进行意义分响。次生事件词在文本中标示所发生的次生事件。析,同时对以事件词为标志的事件和事件之间的关包含次生事件词的事件小句构成次生事件信息链。系进行分析,可以发现主线信息链代表的事件信息例如,火灾文本的次生事件词集合如下:结构通常是由四个部分组成的事件描述,即核心事Secondary Event Words of Fire = [伤亡、死件、前核心事件、次生事件以及后次生事件。在此信亡、死、丧生、失踪、遇难.伤亡、伤、受伤、重伤轻伤、息结构中,核心事件是主体,其余三部分事件信息都烧伤、烧烫伤、烫伤、伤势、轻微伤、灼伤、熏晕、熏黑、是围绕核心事件而产生、存在的。组成事件信息的熏晕、熏得萎靡、熏伤、熏死、昏迷不醒、吓坏、损失、四个部分对应的事件词有明显的差别。由此,可以被困、昏迷蔓延、损害、身体不适、砸晕、骨折、撤离、事件词为驱动,识别、区分事件的信息结构。以火灾撇退、逃出、逃生、逃散、逃离、踩踏、呼救、自敫、跳类突发事件为例,以事件词集合为事件的基本表示,窗、碎裂、损毁、破损、烧毁、烧焦.烧穿、被烧.被炸对应的事件信息链示例如下:爆、炸裂、烧尽、爆炸、坍塌、砸、影响](1)核心事件信息链。核心事件是事件信息结(4)后次生事件信息链。后次生事件是指由核构中的重要构成成分,它是突发事件文本报道的焦点心事件造成的间接影响,主要是描述人在面对突发事件。标志核心事件发生的事件词即为核心事件词。性的灾难时采取的各种应对措施。后次生事件词表包含核心事件词的事件小句是核心事件信息链上的示文本中描述的后次生事件。包含后次生事件词的基本元素。例如,火灾文本的核心事件词集合如下:事件小句组成后次生事件信息链。例如,火灾文本Core Event Words of Fire= [火灾、火灾事故、的后次生事件词集合如下:火势、火海、大火.火、余火、火苗、明火残火、火情、Regeneration Events Words of Fire= [启动(应火场、火魔、火光、火警、起火点、着火点、火源,过火.急预案)报警、警戒、封闭、关闭、调集、安置、增援、出面积、着火、着起火来、起火、失火、燃烧、胃烟、滚滚动.赶到、赶赴、奔赴处理、指挥、部署、清理撤离、搬冒出、烟雾、黑烟.焦烟、烟柱.浓烟、浓烟滚滚、浓烟出、转移、扑灭、救火、灭火、扑救、救援、控制、疏散,善弥漫、浓烟笼罩、浓烟刺鼻、火光冲天、火光四射、火后喷水、接水、泼水抢险、抢救、急救救出、搜救、救治、治疗、观察、就医、检查、核查、检测、检查.调查.隔猛炳大](2)前核心事件信息链。前核心事件指先于核离、呼吁、逮捕、运抵宜判.判、通知]心事件而发生的事件,通常前核心事件是造成核心3事件词扩 充和副线信息链过滤事件发生的原因。前核心事件词在文中标示前核心事件的发生。包含前核心事件词的事件小旬构成前核心事件信息链。例如,火灾类文本的前核心事件3.中国煤化工词集合如下:YH. CNMHG性.获得了每一类Former-Core Event Words of Fire =[爆炸、点突发事件对应的事件词集合,进一步将事件词区分,3期杨尔弘等:事件信息结构分析95可以使事件词集合中的不同元素,表达事件的信息的副线信息进行过滤,可以消除文本中影响事件抽结构,也就是可以利用事件词区分前核心、核心、次取的干扰信息,并提高事件词对事件信息表达的区生和后次生事件信息链,不同的事件信息链对应不分度。同的事件词。为过滤副线信息链,必须在文本中找到区分如果每- -类突发事件的事件词是一个相对稳定主线信息链和副线信息链的特征。- -般来说,细的词语集合,这对事件信息结构的发现与识别将有节信息属于客观信息的一部分,但是因为其过于很大帮助。为验证从标注文本中标注得到的事件词琐碎,往往句子中不会包含有标注和扩充得到的集合对新的文本事件信息表示的有效性,本文做了事件词,所以对于细节信息可以暂不考虑。例如,-一个简单的实验,将标注得到的事件词作为种子事以下两个例句都属于火灾事件的细节信息,均未件词,对新的测试语料文本进行事件词覆盖测试。包含事件词。以地震文本为例,重新选择50篇新的文本。覆盖结(1)罗周忠因外出不在家,逃过一劫,罗还有一果表明从200篇地震文本中获得的种子事件词不能个女儿在外地读书。完全覆盖新文本中事件信息,即新文本中出现了新(2)这家店的店主说:“我们的所有财物都被的事件词。这说明所获得的事件词对同类事件新闻烧毁了,彻底被毁了。我们失去了曾拥有的一切,现报道文本信息表达的有效性不够。在可算是彻底完了。要知道,我们把所有的钱都投如何扩大事件词集合?解决这个问题的方法可资到这个店上了。”以是:增加标注量,直到事件词达到一个比较稳定另外,有一些背景信息也不包含事件词,不会对的状态,即随着新文本的加人,不再出现新的事件事件抽取造成千扰,例如:词。此方法的问题是:究竟多大的标注量就够了?(1)呼困壁县位于新疆中北部,距离新疆首府如何选择需进行标注的文本?这两个问题解决起来乌鲁木齐约六十公里。都比较闲难。扩大事件词集合的另- -种方法是利用(2)巴达赫尚省是阿富汗最偏远的地区,交通已有的词典、知识资源。在此我们利用常识知识库不便、通信落后、人口密度很低。《知网》( HowNet)b5J对已有的种子事件词进行扩因此副线信息链中过滤的重点是包含事件词的充,从《知网》中获得种子词的相关词,再利用词性等评价信息和背景信息。对这部分内容的过滤方法,限制筛选相关词,得到扩充词集合。以地震文本为本文主要采取词语的显性标记作为特征。例如,在例.核心事件词经扩充后由原来的17个扩展为21标注过程中发现,地震文本的背景信息有比较明显个0;次生事件词由原来的64个扩展为1 146个;后的词语特征。通过对200篇地震文本考察,发现很次生事件词由原来的51个扩展为548个四。多背景信息表达方式如下:在对四类突发事件文本的事件词进行扩充时,(1)日本地震频发,每年发生有感地震1000多扩充原则一样,但是四类文本的前核心、次生、后次次,是世界上地震最频繁的国家之一。生事件词之间有很多交集词语,因此对组成事件信(2)墨西哥处于环太平洋地震带东部,属地震息结构的不同部分,事件词的扩充可以采用不同的多发国家。策略获得:突发事件的核心事件词需要根据突发事(3)地处太平洋板块和加勒比板块交界处的尼件类型各自进行扩充,即分别对地震、火灾、食物中加拉瓜境内地壳运动频繁,历史上曾多次发生地震。毒恐怖袭击文本的核心种子事件词进行扩充;对于(4)去年8月,秘鲁发生里氏8级地震,至少造突发事件的前核心、次生和后次生事件词,可以不考成500人死亡,4万座房屋被毁。虑突发事件类型,按各个部分扩充。在这些包含知识.历史、环境以及以前事件在内的背景信息中,诸如“(频繁)|(频发)|(多发国家)|3.2副线信 息链过滤(多发区)|(多发带)(多发地带)|(强地震带)|(最人工标注过程中,已经发现副线信息链中很多易发生)|《经常发生)(活跃)|(曾发生)|(曾多次发句子包含事件词,诸如背景信息、评价信息等。因此中国煤化工从事件信息提取的角度来看,以事件词作为驱动来识别、提取事件信息,文本中的副线信息链将会产生YHCN M H G人工标注地震类文本的时候,表不地震事作的事件同大事数匕经怀出了.较大噪音。为此,根据篇章结构,对新闻报道文本中0地震类突发事件没 有明显的前核心事件.96中文信息学报2012年生)(曾遭遇)|(发生过)|(上次发生)|(上一次发恶性恐怖袭击事件。生)(去年....”这样的词语是副线信息的显性标(3)估计在未来24小时内,景泰原震区发生更记。将从文本中提出的明显标示背景信息的词语作大级别地震的可能性不大。为显性标记,可以识别副线信息。在选取的200篇(4)伊朗驻联合国官员的一系列可疑行为已引地震文本中,人工标记有59个句子是背景信息,用发了 纽约警局官员有关伊朗特工可能主使发动恐怖程序根据显性标记在文本中自动识别背景信息,得袭击的担心.到45个句子。由此提取表达副线信息的显性词3.3实验语,可以作为过滤副线信息的特征。副线信息链中的不同内容对应的词语特征是不为验证事件词扩充和副线信息链过滤的效果,一样的。以下示例了评价信息部分对应的特征设计如下实验:词语。以已经标注的200篇地震文本为基础,提取事(1)分析人士认为,不管调查结果如何,巴基斯件词,标记副线信息链。随机选择50篇新的地震类坦的国际形象因这次袭击事件而再次遭受严重影事件报道文本进行测试。分别测试事件词扩充前后响,使外界对巴基斯坦的安全形势感到进一步担忧。和副线信息过滤前后,事件词对文本中事件信息结(2)警方初步判断是泰南武装分子制造了这起构的识别与区分结果。测试的指标定义如下:Precision=(识别正确的核心事件词个数+识别正确的前核心事件词个数识别的核心事 件词个数识别的 前核心事件词个数+识别正确的次生事件词个数+识别正确的后次生事件词个数/4x100% .识别的次生事件词个数识别的后次生事件词个数Recall=人工标注的核心事件词个数 入工标注的前核心事件同个数。识别正确的次生事件词个数」识别正确的后次生事件词个数\! 4X100%人工标注的次生事件词个数十人工标注的后次生事件词个数)F- Score=. 2X PrecisionX RecallPrecision+ Recal表1给出了未进行事件词扩充和副线信息过滤表2地震类文本事件词扩 充后封闭及开放测试实验时的情况。封闭测试的测试对象只包含200篇人工(且过滤副线信息)标注过的突发事件报道文本,开放测试的测试对象事件信息结构识别PrecisionRecallF-Score是新选择的50篇突发事件报道文本。封闭测试95. 57%表1地震类文本事件词扩 充前封闭及开放测试实验开放测试92.24%| 99. 15%(未过滤副线信息)表2的实验数据表明,通过过滤副线信息链和事件信息结构识别Precision事件词扩充两个步骤,- - 方面减少了错误识别结果,封闭测试(人工标注)| 89. 68%提高了识别的准确率;另一方面,因为扩充后的事件90. 02%97. 60%93. 66%词集扩大,使得更多的事件词能够被机器识别出来,封闭测试的准确率较低是由于副线信息链中的召回率也得到了提高。噪声数据引起的。随着文本量的增加,副线信息链4结语的数量增加,噪声会增大,这也是开放测试的准确率比封闭测试的要高的原因。本文结合戴伊克新闻文本的话语图式,通过考表2给出了扩充事件词并过滤副线信息链之察事件词在篇章中的分布情况,提出了突发事件新后,对事件信息结构的识别结果。实验的步骤是:闻捆中国煤化士线信息链和副线信(1)利用显性标记规则过滤副线信息链; (2)利用扩息THE突发事件新闻报道充后的所有事件词对文本中的事件信息结构进行的主CN M H2在主线信息链中识别。以事件信息的层级结构形式体现出来,即事件信息3期杨尔弘等:事件信息结构分析97由前核心事件链、核心事件链、次生事件链和后次生edu/Projects/ ACE/ docs/Chinese Entities-Guidelines.事件链构成,事件信息结构可以简单地以事件词的v5. 5. pd.2005a.分布来区分,这为事件信息提取提供了帮助。副线[3] ACE Chinese Annotation Guidelines for Relations(Version 5. 5.1) [EB/OL]. http://www. ldc. upenn.信息链则是由“评价”部分、“背景”部分以及“情节”edru/Priects/ ACE/docs/Chinese -Relations -Guidelines部分中的细节信息和事件词缺省的事件信息所在的_v5. 5. 1. pdl. 2005b.句子等构成,不作为事件信息抽取时考虑的内容。4] ACE Chinese Annotation Guidelines for Events [ EB/在此调查的基础上,实验了利用《知网》(HowNet)OL] http://www. ldc. upenn. edu/Prijects/ ACE/扩充事件词、利用显式词语规则过滤副线信息链,从docs/Chinese Events-Guidelines. v5. 5. 1. pdf.2005c.而尽可能准确地识别、区分事件信息结构。目前,本[5]姜吉发.一种事件信息抽取模式获取方法[J].计算机工程.2005, 31(15): 96-98.文的研究只考察了地震、火灾、食物中毒.恐怖袭击[6]赵妍妍,秦兵,车万翔,等. 中文事件抽取技术研究[J].这四类突发事件新闻报道文本,实验结果表明方法中文信息学报。2008,22(1): 3-8.是有效的。许红磊.陈锦秀,等.自动识别事件类别的中文事件抽核心事件词需要根据突发事件的类别分别获取技术研究[J]心智与计算,2010,4(1): 34-44.取,且相对稳定。事件信息结构中其他事件信息链[8] 吴平博,陈群秀,马亮.基于事件框架的事件相关文档的智能检索研究[].中文信息学报,2003, 17(6): 25-对应的事件词有些具有共性,可以根据性质获取,并被不同的突发事件共享。本文的研究只是从文本结[9] 粱晗 ,陈群秀,吴平博.基于事件框架的信息抽取系统构的角度,初步探索了以事件词为区分特征的事件[J].中文信息学报,2006, 20(2): 40-46.信息结构识别。当新闻报道的事件类型不断增加[10]杨尔弘 突发事件信息提取研究[D].北京语言大学,时,还需要分类分析文本的特点,以获得其相应的事2005.件信息结构。[11]冯礼,李芳,盛焕烨.基于词对特征的事件新侧面探测[].计算机工程,2009 ,35(3): 45-47.[12] 蚂札基于事件框架的突发事件信息抽取[D].上海参考文献.交通大学,2008.[13] 仲兆满,刘宗田,周文,等.事件关系表示模型[J].中[1] Ralph Grishman. Information Extraction: Techniques文信息学报,2009.23(6): 56-60.and Callenges [M]. Information Extracion.ed. Ma- [14] Van Dijk(著),曾庆香(译).作为话语的新闻[M].华ria Teresa Pazienza, Spring Notes in Artificial Inteli-夏出版社,2003.gences, Spring-Vealag. 1997.[15]董振东,董 强.《知网>(HowNet)[EB/OL]. http://[2] ACE. ACE Chinese Annotation Guidelines for Entitieswww. keenage. com.(Version 5. 5) [ EB/OL]. http://www. lde. upenn.中国煤化工MHCNMHG
-
C4烯烃制丙烯催化剂 2020-09-25
-
煤基聚乙醇酸技术进展 2020-09-25
-
生物质能的应用工程 2020-09-25
-
我国甲醇工业现状 2020-09-25
-
JB/T 11699-2013 高处作业吊篮安装、拆卸、使用技术规程 2020-09-25
-
石油化工设备腐蚀与防护参考书十本免费下载,绝版珍藏 2020-09-25
-
四喷嘴水煤浆气化炉工业应用情况简介 2020-09-25
-
Lurgi和ICI低压甲醇合成工艺比较 2020-09-25
-
甲醇制芳烃研究进展 2020-09-25
-
精甲醇及MTO级甲醇精馏工艺技术进展 2020-09-25