FrontPage / Project 311 / Proposition Extraction

目的

東日本大震災では,ツイッターなどのソーシャルメディアが安否確認,被災者支援,情報配信・収集などに大活躍しました. 一方で,「コスモ石油千葉製油所LPGタンクの爆発により,千葉県,近隣圏に在住の方に有害物質が雨などと一緒に飛散する」などという流言がツイッター上でも拡散し,情報の信憑性の確保や,メディアリテラシーの養成などの課題が浮き彫りになりました.

ここでは,賛成や反対など意見の分かれる議論(例えば「プロ野球セリーグの3/25の開幕に賛成/反対」)や,真偽の判断そのものが争われる主張(例えば「被爆予防にイソジンを飲むと良い」)を命題と呼びます. 東日本大震災ビッグデータワークショップで公開されているツイートデータから命題を抽出し,東日本大震災においてどのような論争が発生・拡散したのかを調査します. 抽出された命題は,言論マップに適用し,命題に対して賛成の立場,反対の立場からの意見を集約・俯瞰する予定です.

抽出結果

真偽の分かれる命題

Twitter Japan 株式会社より提供された179,286,297ツイートから,自動的に抽出された命題200件を公開しています.

ここでは,実際に自動的に抽出された命題を幾つか紹介します.

トピックスコア命題命題スコア
田尻智さん18.7海外で、ポケモンの生みの親の田尻智さんが亡くなった0.880
コスモ石油千葉製油所11.8@市原市のコスモ石油千葉製油所LPGタンクの爆発により、千葉県、近隣圏に在住の方に有害物質が雨などと一緒に飛散する1.613
女性暴行10.4@「阪神大震災の際には女性暴行が増えた」3.257
有毒物質8.6コンビナート火災に関し『有毒物質が発生し、雨に混じって降ってくるので肌をさらさないように』0.663
尾田栄一郎先生5.3尾田栄一郎先生が15億円を寄付1.664
円資産5.2池田経済産業副大臣は、「日本企業が円資産を買い戻している2.469
空中投下3.0『物資の空中投下が日本で認められていない』1.189
サーバルーム1.9サーバルーム、ラックで腹部を怪我した1.114
イソジン1.6被爆予防にイソジンを飲むと良い0.616
茨城県知事1.2茨城県知事災害派遣要請出してない2.186
食塩1.0「食塩にはヨウ素が含まれており被曝の防止に効果がある」1.197

スコアは,単語(例えば「食塩」など)の周辺文脈に否定的な意見・判断を表す表現(「デマ」「誤情報」「間違った」)が現われる条件付き確率として定義されています. 例えば,今回のツイートデータにおいて「田尻智さん」という表現を使うとき,そのうちの18.7%が否定的な文脈で出てくることを示しています(※これは本人の存在を否定したり攻撃をしているのではなく,「田尻智さん」に関連する事実・事態に対してツイッター上で否定や打ち消し表現が見られたという意味です). 単に単語を抽出するだけでは,何に関して否定的に判断されているのか曖昧になってしまいますので,単語を含む命題のうち,中心的なものを自動的に取り出し,「命題」として現われています.

デマのまとめサイトなどでも確認されている「コスモ石油」の件や,人物の死亡説などが抽出される他,「食塩にはヨウ素が含まれており被曝の防止に効果がある」などのトンデモすぎて中々目にすることがないデマが多く抽出されています.

賛成反対の分かれる命題

こちらは賛成,反対などで議論が起こった命題200件を自動的に抽出したものを公開しています.

ここでは,実際に自動的に抽出された命題を幾つか紹介します.

トピックスコア命題命題スコア
自衛隊投入19.8”辻元は、阪神大震災の時、自衛隊投入(に反対)1.067
イルカ漁13.5”ただし、クジラやイルカ漁(に反対)2.473
ウラン濃縮7.4北朝鮮外務省が15日、6カ国協議でウラン濃縮プログラム(UEP)問題が議論されること(に反対)1.374
原発誘致6.3志布志市議会、串間市の原発誘致(に反対)0.452
原発そのもの6.2僕はね、一度も原発そのものの存在(に反対)0.417
プロ野球セリーグ2.9プロ野球セリーグの3/25の開幕(に賛成)2.312
串間2.3串間市の野辺修光市長は、東日本大震災を受け、原発立地(の是非)0.727
国歌1.5職員会議で入学式での国旗掲揚と国歌斉唱(に反対)0.623
統一地方選挙1.2統一地方選挙の全国一律延期(に賛成)0.698
増税0.6大前研一氏の「災害復興予算財源として来年度1年限定で消費税1%増税案」(に賛成)0.439

増税,国家斉唱,死刑など,普段からよく議論されている命題が抽出される一方で,節電に関する命題,原発の開発や立地,増設に関する命題が抽出されています. 東日本大震災に関連し,これらの命題がツイッター上で議論されたことが分かります.

手順

今回の手法は,以下の発表の内容に基づいています.

命題を抽出するのに、以下の2つのステップを行いました。

  1. 元データから議論のあるトピックの抽出(「イソジン」「コスモ石油」など)
  2. 命題トピックから命題の抽出(例えば「イソジンは被曝予防に効く」)

トピック抽出

  1. 元データから否定パターンを含むツイートを抽出し,反論ツイート集合と得ます.このとき,真偽を問う命題を抽出するのか,賛否が分かれる命題を抽出するかで,パターンを変更します.
    • 真偽を問う命題を抽出したい場合の例:「イソジンが放射線の予防に効く[というのはデマ]」「築地市場で魚が腐っている[という事実はありません]」
    • 議論がある命題を抽出したい場合:「原子力発電所立地[の是非]」「プロ野球、25日開幕[に反対]」
  2. 各単語の反論ツイート集合に対するスコア(出現確率)を求め、上位N個を命題トピックとします.
    スコア = (反論ツイート集合中での出現頻度)/(Tweet全体の出現頻度)  * 100

命題の抽出

  1. トピックごとに、それを含むツイート中の文を抽出します.
  2. 同じトピックを含む文のうち,以下の命題スコアが一番高い命題候補を抽出します. ただしT:トピック,Word内容語, s:文, hist:文に含まれる内容語の数のヒストグラムとする.
    P-Score(s,T) = (hist(s|T)/∑hist(s|T)) ∑PMI(T,word)
    • 右辺右の項は,トピックに関する議論を記述するのに必要な内容語を多く含むほど高くなります.
    • 右辺左の項は,命題候補中に同じ内容ご数の命題が多いほど重みが大きくなります.

© Inui Laboratory 2010-2018 All rights reserved.