和文モールスは、改良で符号長を ~25% 削減できる
1830 年代に発明された…モールス符号も圧縮符号の一種である。これは、文字通信の中で比較的出現頻度の高いアルファベットに短い符号を…割り当てることで、通信に要する手間を省いている。(しかし日本語のモールス符号はそうなっていない。…)
データ圧縮 – Wikipedia (強調は筆者による)
現行の符号割当の仕様は不合理
現行の和文モールス符号の仕様は非効率である。統計的に 10 字に 1 つ以上がそれである最瀕の字「い」には符号長 5 拍の長い符号が割り当てられる一方で、平均 328 字に 1 度しか登場しない「へ」に符号長 1 拍の最短の符号が割り当てられてしまっている。

上の散布図で、横軸はモールス符号の平均出現間隔、縦軸は符号長を表す。和文モールス符号では、出現間隔と符号長に規則性が無く、符号割当が非効率的なことが見て取れる。なお、ここで「符号長」は、総務省 無線運用規則 別表第 1 号 モールス符号 (第 12 条関係) の下記規定 1, 2 に従い、1 点を 1 拍、1 線を 3 拍、点または線の間隔を 1 拍とした。
符号の線及び間隔
無線局運用規則 | e-Gov法令検索
- 一線の長さは、三点に等しい。
- 一符号を作る各線又は点の間隔は、一点に等しい。
- 二符号の間隔は、三点に等しい。
- 二語の間隔は、七点に等しい。
和文モールス符号の改良
和文モールス符号をエントロピー符号で改良してみた。出現間隔の短い字 (つまり高頻度の字) に短い符号を、出現間隔の長い字 (つまり低頻度の字) に長い符号を割り当てる。下図に、そのような符号割り当てを採用した場合の散布図を示す。各点が、右肩上がりの傾向に乗っていることが分かる。

この新しい符号化により、和文モールス符号で送信する文章の平均的な長さを約 25% 短縮できる。従来の符号化では 1 文字あたり平均 9.92 拍を要した一方、新しい符号化では平均 7.48 拍となる。ここで、平均符号長 = Σ(符号長 ÷ 平均出現間隔) で算出した。
| 順位 | 文字 | 平均出現間隔 | 符号 | 符号長 | 符号長_改良 | 備考 |
|---|---|---|---|---|---|---|
| 1 | い | 9.88 | ・- | 5 | 1 | |
| 2 | ゛ | 11.97 | ・・ | 3 | 3 | 濁点 |
| 3 | う | 14.73 | ・・- | 7 | 3 | |
| 4 | つ | 19.38 | ・--・ | 11 | 5 | |
| 5 | か | 24.33 | ・-・・ | 9 | 5 | |
| 6 | し | 26.47 | --・-・ | 15 | 5 | |
| 7 | て | 27.66 | ・-・-- | 15 | 7 | |
| 8 | よ | 29.82 | -- | 7 | 7 | |
| 9 | た | 30.28 | -・ | 5 | 7 | |
| 10 | ん | 31.33 | ・-・-・ | 13 | 7 | |
| 11 | と | 32.66 | ・・-・・ | 11 | 7 | |
| 12 | の | 42.13 | ・・-- | 11 | 9 | |
| 13 | お | 46.40 | ・-・・・ | 11 | 9 | |
| 14 | な | 49.06 | ・-・ | 7 | 9 | |
| 15 | 、 | 50.14 | ・-・-・- | 17 | 9 | 区切り点 |
| 16 | こ | 50.98 | ---- | 15 | 9 | |
| 17 | は | 52.27 | -・・・ | 9 | 9 | |
| 18 | あ | 54.28 | --・-- | 17 | 9 | |
| 19 | く | 57.60 | ・・・- | 9 | 11 | |
| 20 | き | 58.09 | -・-・・ | 13 | 11 | |
| 21 | に | 59.37 | -・-・ | 11 | 11 | |
| 22 | 。 | 60.37 | ・-・-・・ | 15 | 11 | 段落 |
| 23 | や | 61.45 | ・-- | 9 | 11 | |
| 24 | す | 63.15 | ---・- | 17 | 11 | |
| 25 | ま | 68.91 | -・・- | 11 | 11 | |
| 26 | も | 73.27 | -・・-・ | 13 | 11 | |
| 27 | る | 73.58 | -・--・ | 15 | 11 | |
| 28 | わ | 79.90 | -・- | 9 | 13 | |
| 29 | え | 80.75 | -・--- | 17 | 13 | |
| 30 | ら | 90.95 | ・・・ | 5 | 13 | |
| 31 | り | 91.99 | --・ | 9 | 13 | |
| 32 | ゆ | 102.54 | -・・-- | 15 | 13 | |
| 33 | れ | 104.34 | --- | 11 | 13 | |
| 34 | け | 105.88 | -・-- | 13 | 13 | |
| 35 | さ | 109.61 | -・-・- | 15 | 13 | |
| 36 | せ | 112.31 | ・---・ | 15 | 13 | |
| 37 | を | 112.49 | ・--- | 13 | 13 | |
| 38 | そ | 137.90 | ---・ | 13 | 13 | |
| 39 | ひ | 140.73 | --・・- | 15 | 13 | |
| 40 | ち | 147.56 | ・・-・ | 9 | 15 | |
| 41 | ふ | 154.57 | --・・ | 11 | 15 | |
| 42 | ほ | 179.99 | -・・ | 7 | 15 | |
| 43 | め | 206.95 | -・・・- | 13 | 15 | |
| 44 | ろ | 222.06 | ・-・- | 11 | 15 | |
| 45 | み | 240.83 | ・・-・- | 13 | 15 | |
| 46 | ー | 245.15 | ・--・- | 15 | 15 | 長音 |
| 47 | ね | 319.61 | --・- | 13 | 15 | |
| 48 | へ | 328.04 | ・ | 1 | 15 | |
| 49 | ゜ | 336.93 | ・・--・ | 13 | 15 | 半濁点 |
| 50 | む | 381.04 | - | 3 | 15 | |
| 51 | ( | 1,169.16 | -・--・- | 19 | 17 | 下向き括弧 |
| 52 | ) | 1,189.50 | ・-・・-・ | 15 | 17 | 上向き括弧 |
| 53 | ぬ | 3,108.91 | ・・・・ | 7 | 17 | |
| 54 | ゐ | #DIV/0! | ・-・・- | 13 | 17 | *1 |
| 54 | ゑ | #DIV/0! | ・--・・ | 13 | 19 | *1 |
和文モースル符号の欠番
和文モールス符号には「欠番」とも言える、未割り当ての符号列が存在する。上記の改良では、従来の和文モールス符号で使用された符号のみを使用し、それを再割り当てすることで行った。未割り当ての短い符号を使用することで、さらなる改良の余地がある。
未割り当てな 11 種の符号列には、符号長 9、11、13 拍などに相当する符号列が含まれる。具体的には、次の通り (括弧書きは符号長)。未割り当ての符号列はいずれも 5 bit であり、4 bit 以下の符号列は隙間なく使用されている。
・・・・・(9)・・・・-(11)・・・-・(11)・・・--(13)・・---(15)・----(17)-・・・・(11)--・・・(13)---・・(15)----・(17)-----(19)

下表に、各符号の ・ を 0 に、- を 1 に対応させ、2 進数として符号を整序して並べた。
| Bit | Base-2 | Code | Length | Char | Bit | Base-2 | Code | Length | Char |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 0 | ・ | 1 | へ | 5 | 00000 | ・・・・・ | 9 | #N/A |
| 1 | 1 | - | 3 | む | 5 | 00001 | ・・・・- | 11 | #N/A |
| 2 | 00 | ・・ | 3 | ゛ | 5 | 00010 | ・・・-・ | 11 | #N/A |
| 2 | 01 | ・- | 5 | い | 5 | 00011 | ・・・-- | 13 | #N/A |
| 2 | 10 | -・ | 5 | た | 5 | 00100 | ・・-・・ | 11 | と |
| 2 | 11 | -- | 7 | よ | 5 | 00101 | ・・-・- | 13 | み |
| 3 | 000 | ・・・ | 5 | ら | 5 | 00110 | ・・--・ | 13 | ゜ |
| 3 | 001 | ・・- | 7 | う | 5 | 00111 | ・・--- | 15 | #N/A |
| 3 | 010 | ・-・ | 7 | な | 5 | 01000 | ・-・・・ | 11 | お |
| 3 | 011 | ・-- | 9 | や | 5 | 01001 | ・-・・- | 13 | ゐ |
| 3 | 100 | -・・ | 7 | ほ | 5 | 01010 | ・-・-・ | 13 | ん |
| 3 | 101 | -・- | 9 | わ | 5 | 01011 | ・-・-- | 15 | て |
| 3 | 110 | --・ | 9 | り | 5 | 01100 | ・--・・ | 13 | ゑ |
| 3 | 111 | --- | 11 | れ | 5 | 01101 | ・--・- | 15 | ー |
| 4 | 0000 | ・・・・ | 7 | ぬ | 5 | 01110 | ・---・ | 15 | せ |
| 4 | 0001 | ・・・- | 9 | く | 5 | 01111 | ・---- | 17 | #N/A |
| 4 | 0010 | ・・-・ | 9 | ち | 5 | 10000 | -・・・・ | 11 | #N/A |
| 4 | 0011 | ・・-- | 11 | の | 5 | 10001 | -・・・- | 13 | め |
| 4 | 0100 | ・-・・ | 9 | か | 5 | 10010 | -・・-・ | 13 | も |
| 4 | 0101 | ・-・- | 11 | ろ | 5 | 10011 | -・・-- | 15 | ゆ |
| 4 | 0110 | ・--・ | 11 | つ | 5 | 10100 | -・-・・ | 13 | き |
| 4 | 0111 | ・--- | 13 | を | 5 | 10101 | -・-・- | 15 | さ |
| 4 | 1000 | -・・・ | 9 | は | 5 | 10110 | -・--・ | 15 | る |
| 4 | 1001 | -・・- | 11 | ま | 5 | 10111 | -・--- | 17 | え |
| 4 | 1010 | -・-・ | 11 | に | 5 | 11000 | --・・・ | 13 | #N/A |
| 4 | 1011 | -・-- | 13 | け | 5 | 11001 | --・・- | 15 | ひ |
| 4 | 1100 | --・・ | 11 | ふ | 5 | 11010 | --・-・ | 15 | し |
| 4 | 1101 | --・- | 13 | ね | 5 | 11011 | --・-- | 17 | あ |
| 4 | 1110 | ---・ | 13 | そ | 5 | 11100 | ---・・ | 15 | #N/A |
| 4 | 1111 | ---- | 15 | こ | 5 | 11101 | ---・- | 17 | す |
| 5 | 11110 | ----・ | 17 | #N/A | |||||
| 5 | 11111 | ----- | 19 | #N/A |
