您现在所在的位置:首页 >> 科学研究 >> 共享资源 >>
发布日期:2013年4月15日
北京森林工作室汉语句义结构标注语料库(BFS-CTC)共享资源

     句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,北京森林工作室(BFS)基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio – Chinese Tagged Corpus)。
     标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究。 语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用。
     语料来源和规模方面,原始数据全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到50,000句。
     BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,在兼容现有标注规范的情况下进行了词法和语法标注。BFS标注的词法、句法及句义结构既可以单独使用也可综合使用,可用于自然语言处理多方面的研究。
     为共同推动汉语语义分析的研究和发展,北京森林工作室(BFS)从2013年4月15日起对外开放下载3,000句句义结构标注语料,更多句义结构标注语料可向BFS申请后免费使用,申请协议书详见《北京森林工作室汉语句义结构标注语料库使用协议》。 句义结构的基本形式如下图所示:

相关文献:

罗森林, 刘盈盈, 冯扬等. BFS-CTC汉语句义结构标注语料库构建方法[J]. 北京理工大学学报, 2012, 32(3): 311-315
刘盈盈, 罗森林, 冯扬等. BFS-CTC汉语句义结构标注语料库[J]. 中文信息学报, 2013, 27(01): 72-80
罗森林, 韩磊, 潘丽敏等. 汉语句义结构模型及其验证[J]. 北京理工大学学报, 2013, 33(2): 166-171
 
附件1. 北京森林工作室汉语句义结构标注语料库使用协议
附件2. 语料查看工具
附件3. 5000句句义结构标注语料