FrontPage / Open Resources / Statement Map Corpus

言論マップコーパス Ver. 1.0

本コーパスは言論マップ生成課題[1,2,5]において,文間の意味的関係を分類するために整備したコーパスである. 人手で構築した20種類の自然文クエリと,クエリ文中の名詞をクエリ単語としてTSUBAKIで検索して得られた関連文(検索対象文)との間に,以下で定める意味的関係を付与した[5].

言論マップ生成課題については,プロジェクトページを参照してください.

サンプル

以下に,本コーパスの一部を示す.

各列の名称について,関係大分類は,以下の仕様書における「関係カテゴリ」に対応し,関係細分類は「関係名」に対応する.また,検索対象文IDはTSUBAKIによって付与されている文書IDに文番号を追加したものである.

クエリ文検索対象文ID検索対象文関係大分類関係細分類限定根拠
リサイクルは環境に良い0006482765-4_22_sentかけがえのない地球の環境をより良くしていく為に、全社員が環境に優しい商品づくり、リサイクル商品づくりとその技術開発に取り組んでいます同意含意
リサイクルは環境に良い0006847286-2_11_sent生産者の方と一緒に、環境に負荷をかけない栽培方法に取り組んでいますその他負例
リサイクルは環境に良い0009775180-3_3_sent廃棄物処理とリサイクル促進に関わる排出事業者と受入事業者双方が「環境に優しい」と「会社に優しい(本業に役立つ)」を実現するための取組にヒントとなる情報を発信しますその他負例
リサイクルは環境に良い0011770447-3_18_sentアルミニウムはリサイクル性が良く環境にやさしい素材で、また、引き取り額も高額です同意具体化
リサイクルは環境に良い0014820443-3_22_sentビジネスとしての成長のためには、政府が啓発活動を行うことに加えて、メーカー等がリサイクルを行うことによる環境負荷の低減や経済性等、説得力のある社会経済的意義について、情報公開を行うことが必要である同意含意×
リサイクルは環境に良い0015029848-3_6_sent環境にやさしい生活をするために「リサイクル」してはいけない対立矛盾×
リサイクルは環境に良い0043817570-5_133_sentこれについては武田邦彦「環境問題はなぜウソがまかり通るのか」に詳しいが、アルミ缶のリサイクルは金属資源、石油資源の節約になるが、ペットボトルのリサイクルはそれのために新品のペットボトルを作るよりも7倍も多くの石油を使ってしまい、かえって環境悪化を招くそうだ対立矛盾

付与基準

本コーパスで用いる意味的関係は,言明間意味的関係仕様書 ver 1.0に対して,以下の変更を施したものである.

変更点

「その他-xxより」について

上記仕様書における定義ではカバーしきれず,現在定義を議論している段階にある関係細分類について「その他-同意より」といった関係を付与している.今後,仕様書とともに更新されていく予定.

「負例」のカテゴリについて

上記仕様書においては「負例」は「無関係」カテゴリに属しているが,本コーパスでは「その他」カテゴリに属している.定義は上記仕様書と同じである.

「対象外」について

上記仕様書における「関係その他」が「対象外」に概ね対応する.「対象外」となる検索対象文には以下のようなものがある.

  • 複数の文から構成される場合,詳しくは後述
  • 指示語があるなど,自身以外の文を参照しなければ関係が判断出来ない場合

「ニュートラル」について

クエリの内容に対して,「同意」とも「対立」とも判断しがたい態度を表明している場合に付与される. 例えば,以下の場合,クエリに対して「同意」とも「対立」とも表明せず,クエリの内容を議論すること自体が無意味であるという意見を表明している.

例 0099065963-1_147_sent

Q:牛乳は骨粗鬆症を予防する

T:牛乳と骨粗鬆症の因果関係の説明として、牛乳の摂取量が多いと推定される北欧諸国の骨折率が高いことを理由に挙げる例が多いが、 これまた要因が様々ある骨折率と、直接因果関係のない牛乳の摂取量の相関を比較することは無意味である

「ニュートラル」は「評価-N」との違いも含めて,検討中の関係であり,今後変更される可能性が高い.

「限定」関係について

上記仕様書における「限定」は「対立」カテゴリに属する関係だが,条件付きの「同意」も「限定」と扱うように変更した.そこで,関係細分類として「限定」を付与することをとりやめ,「同意」または「対立」関係に分類された検索対象文に対して,「付加的な前提条件」や「帰結に対する成立範囲や程度の制限」といった情報が存在する場合に◎を付与する.判断が難しい場合は△を付与する.そのような情報が存在しない場合は×を付与するが,基本的に付与を省略する.

「限定」関係の定義については参考文献[3][4]を参照されたい.

「根拠」関係について

上記仕様書では「根拠」関係は定義されていない.まだ試験的な付与基準であるが,「同意」または「対立」と分類され,かつ文中に「ので,ため,から」といった根拠を示唆する表現を含む検索対象文が付与対象である. 文中に帰結(クエリに相当する部分)に対する理由や原因といった情報が含まれている場合に○を付与する.判断が難しい場合は△を付与し,それ以外は×を付与する.「ので,ため,から」が含まれていないが根拠情報を含む場合も存在するが,現時点では付与対象としていない.

注意点

検索対象文が複数の文から構成されている場合

本コーパスはクエリ,検索対象文ともに単一の文であることを前提としている.引用文などはこの限りではない.文分割はTSUBAKIによるものだが,分割誤りも存在するため,以下の2種類の場合に分けて対処する.

1. 複数の文から1文を選択することで,関係が付与できる場合は,他の文を削除する.

例 0143133944-2_92_sent

Q:血液型で性格が分かる

T:「血液型性格判断」は「占い」ではなく「科学」です同じ血液型の人でもみんなが同じ性格ではありませんが性格的に共通点が多いという「データ」があるのですから相手の事や自分を知る為に利用しないてはないですよね

2. その中の1文だけでは,関係が付与できない場合は「対象外」を付与し,関係細分類で「複数文」を選択する.

例 0213999523-1_15_sent

Q:ブルーベリーは視力回復に効果がある

T:視力回復に効果のある食べ物や行動を教えて下さいブルーベリー、遠くを見る、緑を見る、睡眠をきちんと取る、以外でお願いします

事象や実体の同一性の判断について

クエリ中の名詞と,検索対象文中の名詞が同一の存在の言い換えになっているかどうか判断の難しい場合について,現状では付与者の判断に従っている.例えば,「バナナダイエット」と「バナナ酢ダイエット」は同一事象を指していると判断している.

しかしながら,この判断は付与者によって揺れるため,今後は同一性の判断基準によって関係が変化する場合は,それも併記するように変更する予定である.

入手方法

本コーパスは,ダウンロードによる配布をしていません.窓口担当者にメールにて連絡を頂き,返信メールの添付ファイルにて入手していただくことになります. 入手希望者は下記連絡先まで,メールにて連絡をください.

著作権について

本コーパスに含まれる文は,Web上から獲得したものです.著作権などの問題がある場合は,お手数ですが,下記連絡先まで連絡をください.該当データを削除いたします.

連絡先

コーパスの入手希望などは以下までメールにて連絡をください. ご意見,ご質問などもお待ちしております.

山口健史(kenshi.yamaguchi.e7 (at) tohoku (dot) ac (dot) jp: (at)は@、(dot)は.にそれぞれ変換)

参考文献

  1. Koji Murakami, Eric Nichols, Suguru Matsuyoshi, Asuka Sumida, Shouko Masuda, Kentaro Inui, and Yuji Matsumoto. Statement map: Assisting information credibility analysis by visualizing arguments. In Proc. of the 3rd ACM Workshop on Information Credibility on the Web (WICOW 2009), pp. 43–50, 2009.
  2. Koji Murakami, Eric Nichols, Junta Mizuno, Yotaro Watanabe, Shouko Masuda, Hayato Goto, Megumi Ohki, Chitose Sao, Suguru Matsuyoshi, Kentaro Inui and Yuji Matsumoto. Statement Map: Reducing Web Information Credibility Noise through Opinion Classification. Fourth Workshop on Analytics for Noisy Unstructured Text Data (AND 2010). pp.59-66. 2010
  3. 大木 環美,村上 浩司,松吉 俊,水野 淳太,乾 健太郎,松本 裕治,"文間の弱い対立関係の認識",情報処理学会 第199回 自然言語処理研究会
  4. Megumi Ohki, Eric Nichols, Suguru Matsuyoshi, Koji Murakami, Junta Mizuno, Shouko Masuda, Kentaro Inui and Yuji Matsumoto, "Recognizing Confinement in Web Texts", The 9th International Conference on Computational Semantics (IWCS 2011)
  5. 言論マップ生成技術の現状と課題,水野 淳太,Eric Nichols,渡邉 陽太郎,村上 浩司,松吉 俊,大木 環美,乾 健太郎,松本 裕治,言語処理学会第17回年次大会 (2011.3)

© Inui Laboratory 2010-2018 All rights reserved.