月見草は1795万字の文章サンプルを元に計算されています。
文字数は濁点は0、捨て仮名も一文字としています。また「、。・ー」及び開き括弧がカウントされています。括弧は「『(をまとめて集計しました。

このサンプルを解析し8回以上出現した仮名の連接を、打鍵列として4連接まで評価対象としています。これは計算に用いたパソコンの限度に他なりません。これがどのような文字列かといいますと、文節をまたいで意味を成さないものも多々ありますが「くだらん」「げりをん」など出現率8回/1800万字となっています。

これでも評価可能な1480万字の内12%程度を切り捨てています。但し、最後の文字が二打鍵の場合はニ打鍵目については評価していますので、打鍵の90%程度は3つ前までを考慮した評価ができています。
これを出現率100万分の1で切り捨てますと、更に10%程を評価の対象外とすることになります。
人間による評価は出現率10万分の一まででも到底無理でしょう。それでも1万以上ありますから。しかしそこで切ると半分以上捨てることになるのです。手捏ね配列の良い点を認めないわけでは有りませんが、殆どの言い回しを配慮したとか言う主張の客観性はいかがなものでしょうか。

月見草は、残念ながらそこそこ頻度がある文字列でも必ずしも打ち良いとは限りません。例えば「いん」が同じ指に配置されているのは一見悪そうですが、最終的にはそれでおかしい訳では有りません。一つ一つの頻度は低くとも数多くの連接が打ち良くなり、総合的にはまさるからなのです。

文章サンプルは口語体を多く採用しました。
青空文庫 11,032,631 バイト 長文小説、過去形が多い。目視にて現代的文体を多く選択したが、古さは否めない。
某知恵袋 21,211,842 バイト 短文の集合。多様なテーマの現代の言葉・言い回しを収集できたのではないか。
ビジネス文書 2,278,528 バイト 敬体。特有の言い回しが頻出。
Wikisource 2,092,621 バイト 聖書、法令、数学書、演説、翻訳など。
Wikipedia 964,471 バイト である文
ニュース記事 1,089,780 バイト

漢字かな変換はMeCabを利用しました。

4gramまでのデータを置いておきますので必要な方はどうぞ。
最終更新:2013年01月22日 21:59