東日本大震災ニュース分析
2011年3月11日以降にヤフーニュース(Yahoo! News)に掲載された東日本大震災関連のニュース記事約80万件を対象として、大量のマスメディア情報を手がかりに東日本大震災の復興の流れを振り返ります。関連サイト:「静かに動く年表」311メモリーズ(東日本大震災メモリーズ)もご利用下さい。
本サイトで扱うデータ
- ヤフーニュース(Yahoo! News)に掲載されたニュースの中から、以下の条件を満たす記事を収集してアーカイブしています。
- 上記はアーカイブの収集開始日ですが、その時点で取得できるニュース記事についても可能な限りは遡及的に収集しています。したがって保存期間が短い記事を除けば、収集開始日以前でもアーカイブできている記事は多いと考えられます。
- このようにアーカイブ方法を状況に応じて変更したため、網羅性に関して以下の問題点があります。
- 3月19日頃の作業ミスにより、それ以前の一部の記事が消えました。
- 4月5日以前で、「地震」「震災」等の単語を含まない津波関連記事、原発関連記事の一部(この時点で取得できなかったもの)が収集できていません。
- 4月14日以前で、上記の単語を含まない震災関連記事、原発関連記事の一部(この時点で取得できなかったもの)が収集できていません。
この問題のため、例えば福島第一原発事故の初期に関しては、記事数が実態よりも少ない可能性があります。
- 日々の統計情報を計算する際には、1日の区切りを深夜の0時ではなく翌朝の5時(29時)に設定しています。つまり朝の4時台までに出たニュースは、前日のニュースにカウントされることになります。深夜0時頃では前日のニュースが継続していることが多いため、ニュースが出てくる数が最も少なくなる早朝を1日の区切りに設定しました。
- 雑誌には複数ページにまたがる記事があり、その場合は2ページ目以降が収集できていません。この場合、記事の存在自体に漏れはありませんが、記事内容(に基づく検索結果)に漏れが生じます。いずれ対処する予定です。
- 有料記事については、無料部分のテキストしか収集していません。有料部分を収集する予定は今後もありません。
- 2013年11月27日頃からYahoo!ニュースのリニューアルが始まりました。特に影響が大きい変化はトピックリストの整理、具体的には「東日本大震災(東北地方太平洋沖地震)に関連するトピックのリスト」の廃止です。例えば交通情報は、以前は関連するトピックのリストに含まれていたため、東日本大震災には関係のない交通情報も収集していましたが、これらはトピックリスト廃止後に収集対象トピックから外れることになりました。このような変化により、収集するニュースの数が減少するという影響が生じたと考えられます。ただし、「地震」等のキーワードを含む記事は依然として収集対象に入っているため、実質的にどの程度の影響が生じたかを定量的に評価することは、なかなか難しいのが実情です。
本サイトの制限事項
-
本サイトはニュース記事をアーカイブしていますが、その目的は震災に関するメディア分析であり、記事データベースの提供ではありません。したがって、記事のタイトルおよび本文の最低限の引用を越える部分は、サイト上に表示していません。
-
記事の本文が読みたい方は、元の情報提供サイトにアクセスするか、メディアが運営する(有料)記事データベース、または縮刷版・書籍などをご利用下さい。
-
本サイトの検索機能は全文検索機能ではありませんので、検索漏れを避けることはできません。キーワードの場合は形態素解析処理の不十分さにより、また地名の場合はGeoNLP地名抽出処理の間違いや見落としにより、検索漏れが生じます。検索結果にはこうした誤差が混入しうることを考慮の上でご利用下さい。
ソフトウェア
注意点
-
キーワード検索には地名も含まれますが、キーワード検索の結果と地名検索の結果は異なることにご注意ください。地名検索の方では可能な限り、同じ綴りで異なる場所を区別しています。また、地名に関する省略を補ったり、地名の種類(駅・小学校等)を分類したりもしています。
-
索引語の対象となるのは、名詞(数・非自立・接尾等を除く)、記号(アルファベット)、動詞、形容詞、未知語となります。その他の語は、ストップワードとして索引語には含めません。
更新情報
- 2016年3月5日
-
時系列グラフの表示方法は、これまで日単位だけでしたが、これに月単位および7日移動平均を加えました。震災から5年の時間経過を理解するため、異なる時間スケールでのトレンドも見られるようにしました。
- 2015年3月16日
-
日々の重要地名についても、7日ごと、30日ごとの集計を公開しました。また、日々ランキングにおいて単語ごとの記事タイトルを選び出すアルゴリズムを改良し、その日の全体的な話題に沿った記事タイトルが選ばれやすくなるようにしました。
- 2015年3月14日
-
日々の重要キーワードについて、7日ごと、30日ごとの集計を公開しました。
- 2015年3月8日
-
年々の重要キーワードを公開しました。
- 2015年3月1日
-
固有名ランキングを公開しました。
- 2014年5月24日
-
重要キーワードランキングを公開しました。
- 2014年3月18日
-
しばらく動作していなかった地名マップですが、マーカークラスタリング表示ライブラリやヒートマップレイヤを加えて復活させました。ただし、相変わらず非常に重いページですので、閲覧にはご注意下さい。
- 2013年10月7日
-
NDL東日本大震災アーカイブ「ひなぎく」のトップページにあるキーワードクラウドに向けて、最新ニュースキーワード(30日間)の提供を開始しました。
- 2013年10月2日
-
NDL東日本大震災アーカイブ「ひなぎく」との連携として、キーワードで記事を検索した画面から、同じキーワードで「ひなぎく」を検索するためのリンクを設置しました。ウェブサイト検索およびOpenSearchが利用できます。
- 2013年5月20日
-
検索で、AND検索およびOR検索から開始すると一部の機能が使えなくなる問題を修正しました。
- 2013年2月17日
-
ランキングの表示方法を変更するとともに、検索に関連語の検索機能を追加しました。
- 2013年1月25日
-
ハーバード大学ライシャワー日本研究所と協力し、2011年東日本大震災デジタルアーカイブから東日本大震災ニュース分析のメタデータをハーベスティングするシステムを構築しました(ハーベスティングされたデータ)。
- 2012年12月13日
-
「東日本大震災メモリーズ 311MEMORIES」が、第16回文化庁メディア芸術祭アート部門審査委員会推薦作品に選ばれました(情報)。
- 2012年11月21日
- キーワード時系列グラフを公開しました。
- 2012年09月11日
-
311メモリーズ(東日本大震災メモリーズ)を公開しました。
- 2012年09月11日
-
タイムマップを公開しました。
- 2012年09月03日
-
最新ニュースキーワードを公開しました。
- 2012年09月01日
-
場所(地名、都道府県名、市区町村名)別、あるいはニュースソース別に、特徴語を表示する機能を追加しました。またこれに関連する改良を適用しました。
- 2012年07月26日
-
索引語ごとの地名マップを表示する機能を追加しました。また地名と索引語の両方による絞り込み検索も可能としました。
- 2012年07月19日
-
ランキング機能にニュースソースランキングを追加しました。
- 2012年06月16日
-
検索ページで、索引語を複数指定した記事検索を可能としました。これにより、「東京電力」または「東京電」または「東電」を含む記事検索(OR検索)や、「福島第一原発」および「爆発」を含む記事検索(AND検索)、などが可能となりました。
- 2012年06月12日
-
日々の重要キーワードのトップ10キーワードについて、より納得度の高い結果が得られるよう、ランキングのアルゴリズムを変更しました。
- 2012年6月7日
- 個別記事に対する地名表示と関連記事表示を開始しました。また2つの時点でニュース時系列を比較する「パラレルタイムライン」も導入しました。これにより、ある時点の出来事と1年前の出来事とを比べ、過去を振り返りながら記憶を新たにすることが可能になります。
- 2012年5月28日
-
ランキング機能を追加し、都道府県ランキングおよび市区町村ランキングを開始しました。
- 2012年4月9日
- システムの設計を見直し、検索速度を向上させました。
- 2012年3月12日
- 東日本大震災から1周年を機会にサイトをリニューアルし、「東日本大震災ニュース分析」としてオープンしました。
- 2011年3月16日
- 1時間ごとにニュースの重要キーワードを自動的に選び出す「地震キーワード」を試作し、運用を開始しました。
- 2011年3月12日
- Yahoo! Newsの収集を開始しました。
本サイトは東日本大震災アーカイブ | 2011年3月 東北地方太平洋沖地震関連情報 - 国立情報学研究所の一環として進めているものです。こちらの状況については更新情報をご覧下さい。
東日本大震災ニュース分析とリンクする他のアーカイブ
外部サービスとの連携
関連記事
関連ページ
- クライシス情報学
関連サイト