ウェブサイトを作っていると、どうしても様々なタイミングでダミーテキストを必要とする。定番のLorem Ipsumで済ませることも多いが、漢字やひらがなとアルファベットではグリフの密度が違うため、余白のバランスが大きく変わるなど、問題も多い。しっかりと書かれた日本語の文章を適用した、完成品に近い物では思っていたのと違う結果になってしまうこともあるだろう。
Wikipediaのランダムな日本語ページを利用すると、なかなかいい感じの文章を得られる。僕はよくこれでやってきたが、「8段落くらいほしい」や「リストでほしい」、「各段落は5文くらいがいい」などという時にかなり面倒になる。青空文庫にある有名な小説を使う人もいるが、アルファベットが混ざらないので、使い勝手が良くない。
すでに少し書いたが、以下のようなことができるツールを作って使うようになった。ブラウザーで動かせるものもある。
いい感じにアルファベットも混じっていてほしかったのと、自分専用で作っていたので、文章のソースはこの雑記にした。長くやっていた甲斐があって、4万文近くあり、そこそこ脈絡のない文章が生成される。日本語で意味をなさない文章を生成するのは難しいと思うので、このようなものが限界なんじゃないかと考えている。いい機会なのでスタイル・ガイドのダミーテキストも更新した。
CC-BYかCC-BY-NCのウェブログを100くらいクロールして50万文くらい集め、水増ししたい。方々から怒られそうな気がする上、こういう形での利用はCCの許可範囲に含まれるのかよくわからないので、まだ手をつけていない。