1,000万語分の日本語書き言葉均衡コーパス公開で、使ってみたらびっくりした。

INTERNET Watchの記事によれば、 国立国語研究所が、「現代日本語書き言葉均衡コーパス」のデータの一部にあたる約1,000万語分を試験公開したそうだ。公開されたデータは、政府刊行白書とYahoo!知恵袋の2種類を元にしたもの。2011年の完成時には1億語を越えるデータを目標としている。
検索デモをツンツンとやってみたが、書き言葉がズラズラでてきて面白いのだが、何か利用法はあるだろうか。

検索デモで、ちょこちょこ試してみた。
Javaだと0件。しょぼーん。
なんとなく「彼女」で検索したら、すごい結果が出てきてしまった・・・。
彼女での検索結果

Yahoo!知恵袋ではいろいろな問題を扱ってるんだなぁ。