1. 信息系统及安全对抗实验中心首页
  2. 应用系统

北京森林工作室汉语句义结构标注语料库(BFS-CTC)共享资源

     句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,北京森林工作室(BFS)基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio – Chinese Tagged Corpus)。
     标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究。 语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用。
     语料来源和规模方面,原始数据全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到50,000句。
     BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,在兼容现有标注规范的情况下进行了词法和语法标注。BFS标注的词法、句法及句义结构既可以单独使用也可综合使用,可用于自然语言处理多方面的研究。
     为共同推动汉语语义分析的研究和发展,北京森林工作室(BFS)从2013年4月15日起对外开放下载3,000句句义结构标注语料,更多句义结构标注语料可向BFS申请后免费使用,申请协议书详见《北京森林工作室汉语句义结构标注语料库使用协议》。 句义结构的基本形式如下图所示: 北京森林工作室汉语句义结构标注语料库(BFS-CTC)共享资源

相关文献:

罗森林, 刘盈盈, 冯扬等. BFS-CTC汉语句义结构标注语料库构建方法[J]. 北京理工大学学报, 2012, 32(3): 311-315
刘盈盈, 罗森林, 冯扬等. BFS-CTC汉语句义结构标注语料库[J]. 中文信息学报, 2013, 27(01): 72-80
罗森林, 韩磊, 潘丽敏等. 汉语句义结构模型及其验证[J]. 北京理工大学学报, 2013, 33(2): 166-171
 
附件1. 北京森林工作室汉语句义结构标注语料库使用协议
附件2. 语料查看工具
附件3. 5000句句义结构标注语料

原创文章,作者:BFS,如若转载,请注明出处:https://www.isclab.org.cn/2013/04/15/%e5%8c%97%e4%ba%ac%e6%a3%ae%e6%9e%97%e5%b7%a5%e4%bd%9c%e5%ae%a4%e6%b1%89%e8%af%ad%e5%8f%a5%e4%b9%89%e7%bb%93%e6%9e%84%e6%a0%87%e6%b3%a8%e8%af%ad%e6%96%99%e5%ba%93%ef%bc%88bfs-ctc%ef%bc%89%e7%ae%80/