Tommyの日記

趣味でデータを集めて分析したり機械学習で予測したりしてます

”日本版Qアノン”はどこから来たのか - 機械学習とElasticsearchを用いたTwitter分析

f:id:tommy_htn:20210318014236p:plain

発端

アメリカ大統領にバイデン氏が就任してからすでに2ヶ月以上が経ちましたが、去年の11月頃は日本語圏でも大統領選挙をめぐっていろんな噂話が持ち上がりました。その中の一つに「ドミニオン疑惑」というものがありました。具体的には、Dominion Voting Systemsという北米企業(以下、ドミニオン社)が作っている投票機においてバイデン氏が有利になるような不正があったのではないか、というものです。

 

 

 

疑問

もともとこの疑惑はアメリカ国内においてQアノンと呼ばれる人たちが盛んに主張していたものであり、それを受けて日本で同様の主張を繰り広げる人たちのことを日本版Qアノン、もしくはJアノン*1と呼ぶことがあります。

Jアノンたちも支持するこの疑惑が真実であるか否かについてはここでは検討しません*2。それよりも私が気になったのは、日本語圏でなぜこんなにもアメリカ大統領選の疑惑が話題になったのか、ということです。

大統領選の結果が日本に与える影響は少なからずあるので興味を持つ人がいるのは当たり前だと思いますが、オバマ氏が大統領に選ばれたときの選挙ではここまで大きな騒ぎは起きなかったと私は記憶しており、なぜ今回はこんなにも多くの人が興味を持ったのか、という疑問が当初からつきまとっていました。

そこで私は、Twitter上でこの疑惑についてツイートしているユーザーを集めて彼ら彼女らの興味を分析することを通じて、日本版Qアノンの”起源”を探ってみることにしました。

 

 

やったこと

Twitter上でドミニオン」「不正」という単語を含むツイート*3を行ったユーザーとその「いいね」を収集*4し、「いいね」されたアカウントのグループ化*5を通じてユーザーの興味をグループ化してみました

そして各グループごとに「いいね」ツイート中の単語を集計してタグクラウドを作成*6し、ユーザーの興味をグループごとに可視化しました

ドミニオン」「不正」を検索ワードに選んだ理由としては、単語のユニーク性が高くノイズが入りにくいこと*7、大統領選の疑惑の中でも比較的拡散された話題でありツイート数も多く、データが豊富であったことが挙げられます。

分析結果

全体のタグクラウド

グループごとのデータを紹介する前に、全体のタグクラウドを作成したものが以下になります。

f:id:tommy_htn:20210318014236p:plain

これは冒頭に掲載した画像と同じものですが、中心に近く文字が大きいほどその単語の出現頻度が高いため、ここからドミニオン疑惑に興味を持つユーザーは日本、トランプ、大統領、中国、バイデンの順に興味があることが分かります。( 「人」は「日本人」「中国人」などの単語が分割された結果出てきた単語だと思われるため、分析対象から除外して考えます)

ドミニオン疑惑に言及したユーザーが最も興味を持っているのは「日本」ということになりますが、日本語圏で大統領選の話題を出すからには日本との関係性は切っても切れないものですからさほど不思議はありません。

他も大半は大統領選に関係があるとすぐに分かるワードが並びますが、「中国」というワードは大統領選との関係性が一見して分かりにくいワードです。このあたりに今回の私の疑問を解くカギがありそうです。

とはいえ、すべてのユーザーが大統領選と中国を結びつけて考えているわけではないと思われるため、ユーザーごとの興味の濃淡を調べるため、グループ化を行った上であらためてそれぞれにタグクラウドを作成してみることにします。

グループ化の結果

階層図の作成結果は以下のようになったのですが、このままだと画質が悪く文字が見えにくいので各グループごとにTwitterのユーザーID(screen name)を書き起こしてリストアップします。

f:id:tommy_htn:20210318004746p:plain

グループ1:トランプ氏に興味を持つグループ

 

f:id:tommy_htn:20210318014916p:plain

グループ1のタグクラウド

グループ1のユーザーは先に紹介した全体のタグクラウドと異なり興味の中心はトランプ氏であり、それに付随して大統領選挙やバイデン氏にも興味を持っていることが分かります。「日本」や「中国」に対する興味は薄そうです。
 

グループ2:トランプ氏が興味の中心だが中国にも関心があるグループ

f:id:tommy_htn:20210318210039p:plain

グループ2のタグクラウド

グループ1と似ていますが「中国」や「選挙」「不正」が少し大きくなっています。アカウント2つ目の@epochtimes_jpは中国関連のものであり、4つ目の@oikawa_yukihisaもアカウント名に香港という文字が入っているため、トランプ氏を中心に中国にも関心を持つユーザーが集まるグループだと思われます。

グループ3:日米関係目線でトランプ氏に興味を持つグループ

f:id:tommy_htn:20210318211210p:plain

グループ3のタグクラウド

グループ3もトランプ氏が興味の中心のようですが、「日本」と「アメリカ」がかなり大きく「中国」は小さいため、日米関係という視点でトランプ氏に興味をもつ人たちが集まるグループのようです。 

 

グループ4:日中関係目線でトランプ氏に興味を持つグループ

f:id:tommy_htn:20210318211804p:plain

グループ4のタグクラウド

今までのグループと比較して「日本」と「中国」がかなり大きくなっています。日中関係という視点でトランプ氏に興味を持っているグループと言えます。

 

グループ5:”ネット保守”的な傾向があるグループ

f:id:tommy_htn:20210318212434p:plain

グループ5のタグクラウド

グループ5はこれまでで「日本」がもっとも大きくなっており、その周囲に「トランプ」「中国」「大統領」「バイデン」などが並んでいます。また、「韓国」や「自民」が初登場しており、いわゆる”ネット保守”的な要素が感じられます。

グループ6:より”ネット保守”的な傾向が強いグループ

f:id:tommy_htn:20210318213325p:plain

グループ6のタグクラウド

グループ5と似ていますが「中国」がこれまでで最大となっています。

またグループ5でも入っていた「韓国」「自民」がここではかなり大きくなっており、初めて登場するワード(「立憲」「尖閣」「菅」など)のことも併せて考えると、”ネット保守的”な傾向がかなり強いグループと言えます。

 

グループ7:中国に特化した”ネット保守”グループ

f:id:tommy_htn:20210318214748p:plain

グループ7のタグクラウド

相変わらず「日本」が中心で「中国」もかなり大きく、「菅」「総理」も入っていることからここも”ネット保守”的な傾向があるグループであると言えます。ただし、「韓国」が入っていない点に特徴があります。

ちょっと言語化が難しいですが、中国に特化した”ネット保守”グループ、といった感じでしょうか。 

 

グループ8:虎ノ門グループ

f:id:tommy_htn:20210318224935p:plain

グループ8のタグクラウド

タグクラウドを見るとこれも”ネット保守”傾向が強いグループと言えますが、実のところリストアップされたアカウント全員が特定の配信番組に出演している人たちであるため、その番組名から取って虎ノ門グループと名付けました。ツイート内容への興味よりも番組への関心でのつながりが強いグループだと思われます。

いちおうタグクラウドの中身を見ると「トランプ」が中心にありそれに続いて「日本」と「中国」が来ており、タグだけを見れば日中関係の視点からトランプ氏に興味を持つグループと言えます。

 

なおこの虎ノ門グループは、先に紹介した階層図を8つのグループに分ける手がかりとなったグループです。特定の番組に出演している、という共通点があったため最初にここを一つのグループとして定め、それと同じ水準で他のグループも決めていきました。

 

グループ9:米中関係に興味があるユーザーのグループ

 

f:id:tommy_htn:20210319010741p:plain

グループ9のタグクラウド

トランプ氏が話題の中心ですが、「米国」が他よりも大きいため米中関係に興味があるユーザーのグループと言えるでしょうか。

 

グループ10:スーツ男子

f:id:tommy_htn:20210319011139p:plain

グループ10のタグクラウド

正直このグループについてはアカウント数が少ないためか個人個人の話題がタグとして入っておりなかなか判断が難しいです。「日本」が中心の話題であることは間違いなさそうですが。

強いていえばご本人たちが全員スーツ男子であるという共通点があるので、とりあえずスーツ男子グループとさせてください。


分析

「中国」というワードが特定のグループのみに偏在しているわけではなく大半のグループで上位にランクインしていることを鑑みるに、やはり中国という要素が今回の大統領選における疑惑拡散の大きな原動力になったと言えるのではないでしょうか。つまり、日本版Qアノンという現象は、中国にマイナスイメージを持っているユーザーたちに起因するものである可能性が高いです。

拡散力という点で言えば、「中国」が上位にランクインしているグループ6とグループ8はいいね数が多く、情報拡散力も大きかったことが推測されます。

グループ1もいいね数は多いのですが、これは藤原直哉氏が1人で14万いいねを稼いでいることが原因です。藤原氏のアカウントはその時々で話題になったニュースを紹介することをメインとしているようで、今回の分析には含めないほうが良かったかもしれません。

最後に

簡単にではありますが、日本版Qアノンの起源を探るためにユーザーをグループに分けてその興味を分析してみました。

分析前に考えていた以上にグループごとに特色があり、一つの名前を付けられた集団といえども同質な人たちの集まりではないということが明らかになりました。

 

実のところ当初はいわゆる”陰謀論”的なツイートとそうでないツイートを分類する機械学習モデルを作れたらいいなー、という軽い気持ちでツイートの収集を開始したのですが、ちょっと考えてそれは無理そうだと思い直し、視点を切り替えて今回のようなテーマで分析を行ってみました。

暇さえあればはてブをチェックするような活字中毒・ニュース中毒の私としては、趣味と実益?を兼ねた分析をすることができて非常に充実感がありました。

 

次こそはBERTなどのモデルを使った何かを作成するタスクをやってみたいと思います。

 

*1:https://www.dailyshincho.jp/article/2021/01191210/?all=1&page=1

*2:一応言っておくと、私自身はこの疑惑を真実であるとは考えていません

*3:ただし「ムサシ」を含むツイートは除外した。似たような疑惑としてムサシという日本の投票機メーカーにまつわる不正疑惑がネット上で確認されているため

*4:収集期間は2020年11月前後から2021年1月末まで。最終的におよそ7000ユーザーと1000万件のいいねを収集。ただしいいねの収集は2021年1月に行ったため、その時点ですでに消えていたアカウントの分は収集できていない

*5:いいねを行ったユーザーのscreen_nameをいいねされたアカウントごとに集積し、それを元にTF-IDFを算出し、アカウント同士のコサイン距離を計算してdendrogramで階層図を構築

*6:ElasticsearchおよびKibanaを使用

*7:ドミニオンという名のゲームに関するツイートが少量入っているが、分析に影響するほどの量ではないと判断した