単語リストの作り方

単語リストの作り方(2026-04-12)



結論から言えば、結局は市販の辞書を1ページずつめくってピックアップしていくことになります。



はじめに

タイピングゲーム とか しりとりアプリ とかを作る場合、そのもとになる「単語リスト」が必要になります。
数百、数千の単語が入ったリストをどうやって作ればいいのか。その話題になります。

フリーの単語リスト(そのまま使うことは「できない」)

以下のデータが参考になります。

※それぞれ利用前にライセンスを確認しましょう


Mozc辞書データで漢字変換 と、タイピングゲームの「単語リスト」 でも少しだけ解説しています。


そう、あくまで「参考になる」。
そのままコピペすれば終わり、にはなりません。



まず日本語、Mozcなどの辞書データの場合について。

「誤用」や誤字がリストにのっている

これは単純にMozcが間違っているという話ではなくて、

  1. 誤用のほうが社会に定着しているので、
    正しい単語と間違った単語の両方が辞書データに掲載されている

  2. いつもみんなが間違って入力するので、
    辞書データの方で「打ち間違い」を「正しい単語」に変換してあげている

というパターンも含んでいます。つまりMozcは正しい仕事をしている。

でも、こちらで流用する場合はそういった「誤用」はちゃんと除外して使わなければ、わりとぶっ飛んだ単語もいっぱい入ってくることになります。


マニアックな単語が多い

手元に市販の辞書があれば数ページめくってもらえば分かると思いますが・・・

そのなかで「しりとり」で採用できそうな単語って何パーセントくらいあります?
(50%あれば良い方?)
初めて聞く単語や一生に一度使うかどうかの単語とか、言われてもピンとこないものが大半だと思います。

Mozcとかの「フリーの辞書データ」の場合はそこにさらに、固有名詞もいっぱい入ってきます。
アニメのキャラクターやゲームの呪文、会社・組織名とか、流行語(死語)とか、色々。
一般的ではない単語(市販の辞書には載らない単語)が多く含まれます。


そういう辞書データから、使えそうな単語リストを作るには・・・


まず名詞以外は基本的に除外(動詞、形容詞、副詞など)。
さらに固有名詞は除外。人名、地名も除外*1。動植物は一部のみ採用。
そこまで処理して、ようやく単語の「意味」を踏まえての選定作業・・・といった感じの流れになります。

場合によっては最初から、わざわざフリーの辞書データを使わずに、市販の辞書から使えそうな単語を1つずつピックアップしたほうが早い気もします。
いずれにしても市販の辞書を引いて単語の「意味」を確認する作業は発生しますので。

それに関しては次の項目で。
次からは英語などにも共通する話になります。


レーティング、CEROに引っかかりそうな単語は除外

つまりR15とかR18とかの、暴力、差別や誹謗中傷、性表現、薬物などを連想する単語などです。
あとは放送禁止用語とか dirty word とか。
フリーの辞書データでも市販の辞書でも、そのまま使えば当然、そういった単語も入ってきます。

もっと言えば、以下のような、

しりとりアプリの画像

文字をランダムに並べる系のゲームを作る場合は、そのランダムな文字列の中にdirty word が普通に入ってきてしまいます。
日本語だと「○んこ」とか、英語だと「Fu*k」だとか。
そういう表示をちゃんと抑止するなら、逆に「禁止単語リスト」も用意して、ランダムな文字列からそういう単語が生成されないように監視する必要があります。

私はネイティブスピーカーでは無いので知識に限界はありますが、それでも100語くらい(?)は禁止単語リストを作って除外する工夫は入れました。
単語リストの作成にあたって、採用単語と禁止単語の両方を並行してピックアップしていくことになります。

こういう単語の採用・不採用は明確な線引きなどできないと思います。さじ加減の問題です。
つまり、使われる単語に開発者側の性格がかなり反映されることになります。


単語の偏りについて

これは「しりとり」の場合ですが。

例として、「あ」ではじまる単語はたくさんあるのですが、「あ」で終わる単語は意外と少ない。
こういうのを意識して単語を追加で加えたり出現率を調整したりしないと、いつも同じ単語ばかりが使われたり、すぐにしりとりが終わったりする事態になります。
これは英語やフランス語の場合も同様です。
(eで始まってeで終わる、eばっかりになる、みたいに)

でも、うまく調整すれば英語やフランス語でも意外と「しりとり」が成立します。


あとは市販の辞書で(日本語・外国語ともに)、私の感覚からすれば「動植物が多い」。
国語辞典だと魚が、英和・仏和辞典だと鳥が、多い気がしました。
聞いたことの無い、これから先も見る機会の無いであろう動植物がたくさん出てきます。
(そのたびにWikiとかで検索していたらリスト作成にものすごい時間がかかりました)

単語リストの内容の偏りについては、一度つくってみないと分からないので、あとでバランスを調整する作業が発生することも見込んでおいたほうが良いです。


フォントとの兼ね合い

OS標準のフォントではなく、別のフォントを使う場合は要注意です。
たとえば「蜃気楼(しんきろう)」とか、ちゃんと表示できるフォントは少ないと思います。

漢字の話題で言えば、そもそも日本語の常用漢字ってわりと少ないんですよね(二千語くらい)。
ワープロで文章を書くと気が付かないものですが、小・中学校で習う範囲に限定してしまうとほとんどの漢字が使えないような感覚です。

フランス語の場合は Ç とか、Œ とか。
自分が使う予定のフォントでもちゃんとすべての単語が表示できるか確認しておきましょう。




以上のように、
タイピングゲームやしりとりのような、いわゆる「ワードゲーム」は、ゲーム本体のプログラミングよりも単語リストの作成の方が鬼門になります。
マジメにやれば、思わぬ時間がかかります。

かといって複数人で分担してリストを作ると、単語の採用・不採用の判定基準が人によって異なることになりそうですし。
(統一感のない単語リストが完成する)

いっそAIにやらせても良いのですが、それは単語リストの用途とAIの使い方次第かと。
たぶん、生成スピードは早いけど誤字や不適切な単語が多い、みたいなことになるのでは?
百語くらいなら念入りにチェックすれば問題ないけど、数千語だと、ヤバイ単語が入っていても見落とすでしょう。
(余談ですが、AIを導入することで余計な仕事が「増えた」なんて話もあるので、精度については運まかせ?)


もし、こういう単語リストを作らなければならなくなってしまったら。
まずは試しに100〜1000語くらいで作ってみて、その内容と作成にかかる時間を測ってみることからオススメします。



*1 もちろん地名を使っても良いのですが、たとえばリストに「35都道府県」が入っていたなら「なんで私の出身地だけ無いの!?」って話になるじゃないですか。26都道府県とかよりは、ゼロの方がマシな気がします。