カバー画像

[textlint] 漢字を「ひらく」ためのtexlintルールを作った

タイトルのとおり、漢字を「ひらく」ためのtexlintルールの textlint-rule-ja-hiraku を作りました。

漢字を「ひらく」というのは、漢字の読みや文字から受ける印象を考慮し一部をひらがなで表記することで、読みやすく誤読しにくい文章へと変えることです。 漢字とひらがな、どちらで書くかが統一されるので、表記揺れを減らすことにも繋がります。

「ひらく」ことの大切さというのは『日本語の作文手法』やシナリオライティングの教科書などで以前から知っていたのですが、多くの人に需要があると感じたのは2021年に書かれた「なぜ、“ひらく”のか」への考察という記事が今年Twitter上でバズっているのを見かけたからです。

自分も今年はブログを始めたり、技術記事を執筆したり、海外のソフトウェア関連の翻訳を行ったり……と外向けに文章を書く機会が個人的に増えた一年でした。

特に、多くの人に読まれるであろう雑誌の執筆や、大人数で行う翻訳プロジェクトでは、なんらかの統一的な方法で文章を校正したくなるケースが多いです。しかし、探してみた限りでは網羅的に漢字を「ひらく」ためのtexlintルールは存在していないようでした (副詞や代名詞といった格ごとのパッケージがあるのは見かけた)。

今年に入って『ゆる言語学ラジオ』を勧められて言語学づいている自分としては (?) こういった自然言語処理ライブラリを一つくらい作ってみたいと考えていたこともあり、実際に開発に移るにはいいタイミングでした。

内部的な実装としては非常に簡単で、文章を kuromoji の形態素解析にかけたうえで、ひらがなにするべき形態素 (ワード) が見つかったら置換するだけの単純なものです。ルールの実装よりも、変換するための辞書を用意する部分が苦労の大半でした。

そういった頑張りもあって、一般的にひらがなにした方がいいとされている代名詞・副詞・副助詞・補助動詞・形式名詞・連体詞・接続詞の置換は一通りカバーできているはずです。例えば、以下のような文章を修正することができます。

丁度良かった。色々話を聞いて頂きたいと思っていた所でした。
↓
ちょうどよかった。いろいろ話を聞いていただきたいと思っていたところでした。

テクニカルライティングや翻訳、IRや広報などいろいろな場面で利用できると思うので、ぜひ試してみてほしいです。