新型コロナウイルス感染症(COVID-19)ニュース分析
2019年12月31日以降にヤフーニュース(Yahoo! News)に掲載された新型コロナウイルス感染症(COVID-19)関連のニュース記事約170万件を対象として、大量のマスメディア情報を手がかりにCOVID-19の流れを振り返ります。
データ収集の方法
-
ヤフーニュース(Yahoo! News)に掲載されたニュースの中から、「コロナ」「肺炎」という単語を含む記事を収集してアーカイブしています。
-
日々の統計情報を計算する際には、1日の区切りを深夜の0時ではなく翌朝の5時(29時)に設定しています。つまり朝の4時台までに出たニュースは、前日のニュースにカウントされることになります。深夜0時頃では前日のニュースが継続していることが多いため、ニュースが出てくる数が最も少なくなる早朝を1日の区切りに設定しました。
-
雑誌には複数ページにまたがる記事があり、その場合は2ページ目以降が収集できていません。この場合、記事の存在自体に漏れはありませんが、記事内容(に基づく検索結果)に漏れが生じます。いずれ対処する予定です。
-
有料記事については、無料部分のテキストしか収集していません。有料部分を収集する予定は今後もありません。
-
COVID-19に関するデータは、厚生労働省が公開する 新型コロナウイルス感染症に関するオープンデータの陽性者数を利用しています。
データ収集の問題
-
アーカイブの収集開始日は2020年3月10日ですが、可能な限り遡及的に収集しています。したがって保存期間が短い記事を除けば、収集開始日以前でもアーカイブできている記事は多いと考えられます。
-
2020年9月24日、および2021年4月5日は、データ収集システムの障害により、収集した記事数が実数よりも100件以上少ない可能性があります。
-
2020年4月頃から2020年9月頃まで、2020年9月24日以前のデータ収集に漏れが生じています。可能な限り、遡及的に収集していますが、記事数が実数よりも少ない可能性があります。その割合を推定することは困難ですが、10%から20%程度の記事が漏れている可能性があります。例えば1500件の記事がアーカイブされている日については、実際には1800件以上の記事が存在した可能性があります。
本サイトの制限事項
-
本サイトはニュース記事をアーカイブしていますが、その目的は震災に関するメディア分析であり、記事データベースの提供ではありません。したがって、記事のタイトルおよび本文の最低限の引用を越える部分は、サイト上に表示していません。
-
記事の本文が読みたい方は、元の情報提供サイトにアクセスするか、メディアが運営する(有料)記事データベース、または縮刷版・書籍などをご利用下さい。
-
本サイトの検索機能は全文検索機能ではありませんので、検索漏れを避けることはできません。キーワードの場合は形態素解析処理の不十分さにより検索漏れが生じます。検索結果にはこうした誤差が混入しうることを考慮の上でご利用下さい。
ソフトウェア
注意点
-
索引語の対象となるのは、名詞(数・非自立・接尾等を除く)、記号(アルファベット)、動詞、形容詞、未知語となります。その他の語は、ストップワードとして索引語には含めません。
更新情報
- 2021年4月24日
-
デジタルアーカイブ学会第6回研究大会にて、クライシス・ニュース・アーカイブをどう読むか? 〜台風、東日本大震災、新型コロナウイルス感染症(COVID-19)の比較の発表を行いました。
- 2020年11月13日
-
ニュースソースランキングおよびその関連機能を公開しました。
- 2020年7月23日
-
キーワードトレンドグラフを公開しました。またキーワードごとの時系列グラフについても、処理方法の変更により表示を高速化しました。
- 2020年5月19日
-
索引語ランキングを公開しました。
- 2020年5月18日
-
時系列グラフにCOVID-19新規陽性者数(日本全国)のグラフを重ね、感染の拡大/縮小とキーワードの出現回数との時間的な相関を可視化できるようにしました。
- 2020年4月18日
-
新型コロナウイルス感染症(COVID-19)ニュース分析を公開しました。
- 2020年3月10日
-
Yahoo!ニュースの収集を開始しました。
関連ページ
- クライシス情報学
関連サイト
- ロシアのウクライナ侵攻ニュース分析
- デジタル台風:ニュース・トピックス
- 東日本大震災ニュース分析
- 火山噴火関連ニュース分析