"飲み会"ツイート分析で新型コロナ陽性者急増を予測できるか?
発端
先日、以下の記事をはてなブックマーク(はてブ)で見かけました。
とても興味深い研究だと思いますが、はてブでは検索ワードの妥当性やグラフの相関性に疑問を抱くコメントが散見され、なかなか厳しい意見が多かったようです。
実のところ私も似たような分析を行っており、この記事を見つけた直後に以下のようなツイートをしました。
飲み会ツイート数(忘年会、新年会含む)のグラフに新規感染者数の推移を重ねてみた。
— 就活中の機械学習エンジニア (@ponko2ml) 2021年3月14日
12月末にツイート数がピークを迎えてその2週間後の1月8日あたりに感染者数もピークが来てる。 pic.twitter.com/IxAw5NIt18
※いちおう断っておくと私は東邦大学の研究グループの関係者ではありません。
後出しで「実は私もやってました」と言うことのダサさは理解していますが、上記記事の研究よりも相関性が高いグラフを描くことができたのでここでちょっとだけ報告させてください。
やったこと
Twitterの検索機能を使って、飲み会をしたと強く推認されるツイートを集めました。
具体的な検索クエリを公表すると今後のデータ収集に影響がありそうなのでとりあえず今は避けさせてもらいますが、「飲み会」「カラオケ」「ご飯」「新年会」「忘年会」などに加えてそれに参加したことを示すワードを追加したものを使いました。いちおうオンライン飲み会系のワードは除外するようにしました。
データの期間は2020年11月中旬から2021年3月14日で、累計ツイート件数は4万件を超えています。これを「飲み会系」と「忘年会・新年会系」で分けてElasticsearchというデータベースに集積し、Kibanaという可視化ソフトでグラフを作成しました。その結果が上記に掲載したツイートです。いちおう以下にも同じものを載せておきます。
データ詳細
データの期間は2020年11月中旬から2021年3月14日です。
2色の棒グラフについては、青緑色が忘年会・新年会系のツイート、赤のバーが忘年会・新年会を除く飲み会系のツイートの件数で、それらを積み重ねて表示しています。棒グラフが急減しているところが1月1日です。
折れ線グラフは日毎の陽性者数で、厚生労働省のホームページに載っているものを使用しました。
どちらも1週間の周期が見られ、飲み会は週末が近づくにつれて増える傾向があり、新規陽性者数は月曜前後に減少する傾向があります。後者は検査体制によるものだと思われます。
棒グラフが最も高くなっているところは12月最終週にあたり、忘年会ツイートが急激に増えています。そしてその5~10日後である1月5日から新規陽性者数も急増しはじめ1月8日に最大値を記録しています。1月以降にツイート数が急減するとそれに遅れて新規陽性者数も急減していっています。
データの検討と個人的見解
データを収集した期間において、飲み会に参加したことを示すツイート数の増減は新型コロナ新規陽性者数との連動が見られました。
ただ気になる点がいくつかあり、一つは1月1日以降のツイート数の減り具合です。
「新年会」ワードも収集対象にしていたわりには年明け以降にそれほどツイートが集まりませんでした。新年会は忘年会に比べるとあまり実施されていないのかもしれません。
また、年明け以降の新規陽性者数のボリュームが年末のツイート数に比べてかなり大きくなっていることも気になる点の一つであり、ここに把握できなかった感染拡大要素が隠れている可能性があります。想像するに、正月明け直後は飲食店よりも自宅などで会食が行われたため「新年会」や「飲み会」などのワードがツイートに表出しづらかったのかもしれません。帰省や年越し旅行で感染が広がった可能性もあります。
新型コロナの平均的な潜伏期間は5~6日であると言われており、陽性者が急増し始めたのが1月5日であることを考えると、12月27日から始まった忘年会ラッシュが陽性者急増の原因であると断言することは難しいですが、そもそも12月30日から1月2日までのPCR検査件数は前週と比べると半数程度になっており、逆に4日と5日は前週よりも件数が多くなるというイレギュラーな期間であるため、1月5日からの急増の原因が忘年会ではないと断言することもまた困難です。
牽強付会的ではありますが、私が考えるに、年末年始は検査体制がいつもよりも縮小されておりその分を4日から取り戻し始めたため、本来は1月4日までに出るはずだった陽性者が1月5日以降に集中的に出始めた、というものがもっともありそうなストーリではないかと思っています。
また、12月27日から始まる忘年会ラッシュ以前においてもツイート数の増加と陽性者数の増加にはある程度の連動が見られるため、その点も考慮した上で私としては、年末年始の陽性者急増は飲み会が大きな役割を果たした、と現段階では考えています。本記事タイトルに対する答えを書くなら、「(程度はさておき)急増を予測することは可能だった」、となります。
最後に
機械学習的に感染者数の急増を予測するにはもっと変数が必要なのでここではグラフを作成するにとどまりましたが、旅行などのツイートも収集すれば興味深いモデルを作ることはできそうです。あれこれ試している間にワクチンが行き渡ってしまいそうですが。
ところでグラフを見ていただければわかるように2月末から飲み会ツイートが徐々に増えてきており、新規陽性者数も直近では7日平均値が増加傾向にあります。3月末から4月にかけては歓送迎会や卒業旅行シーズンで家族以外との飲食が増える時期ですので、今後はそれらのワードも含めた監視を行っていきたいと思います。