FrontPage / Open Resources / Japanese FE Corpus

機能表現タグ付与コーパス

機能語や複合辞などの機能表現の認識は,文を解釈する上で欠かせません.本コーパスは,機能表現解析技術の開発に取り組む際に,機能表現が担う意味を人手で付与したコーパスです.既存の日本語機能表現辞書で用いられている意味体系を再構築し,116種類の意味ラベルを定義し,現代日本語書き言葉均衡コーパス(BCCWJ)のYahoo!知恵袋ドメインの一部に付与[1,2]しました.付与対象は,各文の述部に付随する機能表現です.述部以外の機能表現(項の格など)にはラベルを付与していません.

本データには,奈良先端科学技術大学院大学の松吉俊 助教(現 山梨大学 助教)によってモダリティとその周辺情報が付与されています(文献[3]).本コーパスと合わせることで,モダリティ解析の開発に役立てることが,本コーパス構築の目的の一つです.

サンプル

以下に,本コーパスのサンプルを示します. 元コーパスの各文に対して,IPA品詞体系に従って,形態素単位で意味ラベルを付与しています.

形態素形態素情報付与ラベル
やっぱり副詞,一般,*,*,*,*,やっぱり,ヤッパリ,ヤッパリO
ない形容詞,自立,*,*,形容詞・アウオ段,基本形,ない,ナイ,ナイO
名詞,非自立,一般,*,*,*,の,ノ,ノB-推量-高確実性
でしょ助動詞,*,*,*,特殊・デス,未然形,です,デショ,デショI-推量-高確実性
助動詞,*,*,*,不変化型,基本形,う,ウ,ウI-推量-高確実性
助詞,副助詞/並立助詞/終助詞,*,*,*,*,か,カ,カB-疑問
ねえ助詞,終助詞,*,*,*,*,ねえ,ネエ,ネーB-態度
記号,一般,*,*,*,*,・,・,・O
記号,一般,*,*,*,*,・,・,・O
記号,一般,*,*,*,*,・,・,・O
記号,一般,*,*,*,*,・,・,・O
EOS

付与基準

意味ラベルの仕様および付与基準は,以下をご覧ください.

入手方法

コーパスは,以下のアドレスよりダウンロードできます.

  • ver. 2.1a
  • 差分ファイル(各ファイル名・形態素境界・形態素素性・固有表現タグ・機能表現意味ラベルから構成されるBCCWJとの差分)
    • 開発セット 開発に用いた1,627文分の差分ファイル.文内の全機能表現に意味ラベルを付与.
    • テストセット1 2 テストに用いた700文分の差分ファイル.文末の機能表現にのみ意味ラベルを付与.
  • 差分ファイルの適用スクリプトは公開準備中です.
  • 文献[2]では,本データを使って実験を行いました.詳細は[2]をご参照ください.
  • ver. 2.1b
  • BCCWJ Yahoo!知恵袋ドメインコアデータから,全体の30%をランダムサンプルし,機能表現に対して意味ラベルを付与しました.2.1aと一部重なりがあります.
  • 差分ファイルの適用スクリプトは公開準備中です.

謝辞

本コーパスの作成にあたり,元データとして国立国語研究所の『現代日本語書き言葉均衡コーパス』(BCCWJ)を利用させて頂きました.記して感謝致します.

山梨大学の松吉俊助教には,つつじについてご教授いただくとともに,ご助言をいただきました.感謝いたします.

関連情報

参考文献

  1. 上岡裕大, 成田和弥, 水野淳太, 乾健太郎. 述部機能表現に対する意味ラベル付与. 情報処理学会 第216回自然言語処理研究会・第101回 音声言語情報処理研究会, Vol.2014-NL-216/Vol.2014-SLP-101, No.9, pp.1-9, May 2014. PDF
  2. Yudai Kamioka, Kazuya Narita, Junta Mizuno, Miwa Kanno and Kentaro Inui. Semantic Annotation of Japanese Functional Expressions and its Impact on Factuality Analysis. In Proceedings of the 9th Linguistic Annotation Workshop (LAW IX 2015), to appear.
  3. 松吉俊, 江口萌, 佐尾ちとせ, 村上浩司, 乾健太郎, 松本裕治. テキスト情報分析のための判断情報アノテーション. 電子情報通信学会論文誌, Vol.J93-D, No.6, pp.705-713, June 2010. コーパス

© Inui Laboratory 2010-2018 All rights reserved.