和文モールス符号における各文字の出現頻度を推定した
結果
| 順位 | 文字 | 符号 | 割合 | 個数 | 備考 |
|---|---|---|---|---|---|
| 1 | い | ・- | 10.48% | 13,848 | |
| 2 | ゛ | ・・ | 8.65% | 11,431 | 濁点 |
| 3 | つ | ・--・ | 5.34% | 7,057 | |
| 4 | か | ・-・・ | 4.25% | 5,622 | |
| 5 | し | --・-・ | 3.91% | 5,167 | |
| 6 | て | ・-・-- | 3.74% | 4,945 | |
| 7 | う | ・・- | 3.51% | 4,644 | |
| 8 | よ | -- | 3.47% | 4,588 | |
| 9 | た | -・ | 3.42% | 4,518 | |
| 10 | ん | ・-・-・ | 3.30% | 4,366 | |
| 11 | と | ・・-・・ | 3.17% | 4,188 | |
| 12 | の | ・・-- | 2.46% | 3,247 | |
| 13 | お | ・-・・・ | 2.23% | 2,948 | |
| 14 | な | ・-・ | 2.11% | 2,788 | |
| 15 | 、 | ・-・-・- | 2.06% | 2,728 | 区切り点 |
| 16 | こ | ---- | 2.03% | 2,683 | |
| 17 | は | -・・・ | 1.98% | 2,617 | |
| 18 | あ | --・-- | 1.91% | 2,520 | |
| 19 | く | ・・・- | 1.80% | 2,375 | |
| 20 | き | -・-・・ | 1.78% | 2,355 | |
| 21 | に | -・-・ | 1.74% | 2,304 | |
| 22 | 」 | ・-・-・・ | 1.71% | 2,266 | 段落 |
| 23 | や | ・-- | 1.68% | 2,226 | |
| 24 | す | ---・- | 1.64% | 2,166 | |
| 25 | ま | -・・- | 1.50% | 1,985 | |
| 26 | も | -・・-・ | 1.41% | 1,867 | |
| 27 | る | -・--・ | 1.41% | 1,859 | |
| 28 | わ | -・- | 1.30% | 1,712 | |
| 29 | え | -・--- | 1.28% | 1,694 | |
| 30 | ら | ・・・ | 1.14% | 1,504 | |
| 31 | り | --・ | 1.13% | 1,487 | |
| 32 | ゆ | -・・-- | 1.01% | 1,334 | |
| 33 | れ | --- | 0.99% | 1,311 | |
| 34 | け | -・-- | 0.98% | 1,292 | |
| 35 | さ | -・-・- | 0.94% | 1,248 | |
| 36 | せ | ・---・ | 0.92% | 1,218 | |
| 37 | を | ・--- | 0.92% | 1,216 | |
| 38 | そ | ---・ | 0.75% | 992 | |
| 39 | ひ | --・・- | 0.74% | 972 | |
| 40 | ち | ・・-・ | 0.70% | 927 | |
| 41 | ふ | --・・ | 0.67% | 885 | |
| 42 | ほ | -・・ | 0.58% | 760 | |
| 43 | め | -・・・- | 0.50% | 661 | |
| 44 | ろ | ・-・- | 0.47% | 616 | |
| 45 | み | ・・-・- | 0.43% | 568 | |
| 46 | ー | ・--・- | 0.42% | 558 | 長音 |
| 47 | ね | --・- | 0.32% | 428 | |
| 48 | へ | ・ | 0.32% | 417 | |
| 49 | ゜ | ・・--・ | 0.31% | 406 | 半濁点 |
| 50 | む | - | 0.27% | 359 | |
| 51 | ( | -・--・- | 0.09% | 117 | 下向き括弧 |
| 52 | ) | ・-・・-・ | 0.09% | 115 | 上向き括弧 |
| 53 | ぬ | ・・・・ | 0.03% | 44 | |
| 54 | ゐ | ・-・・- | 0.00% | 0 | |
| 54 | ゑ | ・--・・ | 0.00% | 0 |
算出方法
ブログ『Weblog 61℃』の 10万字サンプルにおける文字の出現頻度。のデータに基づき独自に算出した。引用元のデータは、計 104,357 字の日本語テキストから各文字の出現回数を集計したもの。元のデータを記事末尾に引用する。
引用した集計から和文モールス符号における頻度を算出するために、次の 4 つの操作を行った。ここでは操作の対象の字を特定しやすくするため、元データにおける各字の出現頻度の順位を併記した。
(1) 符号が未定義の字を取り除く
具体的に対象としたのは次の 54 字。
| 対象 | 順位 | 対象 | 順位 | 対象 | 順位 | 対象 | 順位 | 対象 | 順位 |
|---|---|---|---|---|---|---|---|---|---|
0 | 72 | ・ | 91 | % | 115 | F | 119 | Q | 126 |
1 | 69 | , | 109 | + | 134 | G | 122 | R | 95 |
2 | 76 | ; | 127 | < | 136 | H | 119 | S | 96 |
3 | 84 | : | 136 | = | 131 | I | 101 | T | 97 |
4 | 94 | ! | 85 | > | 116 | J | 121 | U | 123 |
5 | 89 | ? | 80 | ~ | 73 | K | 127 | V | 130 |
6 | 91 | . | 105 | A | 88 | L | 109 | W | 132 |
7 | 103 | ” | 134 | B | 118 | M | 116 | X | 111 |
8 | 100 | 「 | 48 | C | 108 | N | 112 | Y | 124 |
9 | 105 | 」 | 49 | D | 98 | O | 98 | Z | 132 |
- | 87 | / | 129 | E | 90 | P | 113 |
数字 (0 – 9) の和文モールス符号は未定義とは言えないが、集計結果が特に面白くないことが予想されるため、除くこととした。
(2) 濁音と半濁音を、清音と濁点/半濁点の 2 字として扱う
具体的に対象としたのは次の 26 字。
| 対象 | 順位 | 対象 | 順位 | 対象 | 順位 | 対象 | 順位 | 対象 | 順位 |
|---|---|---|---|---|---|---|---|---|---|
ヴ | 136 | ざ | 61 | ぢ | 136 | び | 65 | ぼ | 67 |
が | 21 | じ | 32 | づ | 82 | ぴ | 103 | ぽ | 83 |
ぎ | 64 | ず | 66 | で | 16 | ぶ | 59 | ||
ぐ | 74 | ぜ | 62 | ど | 40 | ぷ | 81 | ||
げ | 63 | ぞ | 79 | ば | 55 | べ | 70 | ||
ご | 53 | だ | 29 | ぱ | 75 | ぺ | 86 |
(3) 捨て仮名 (小さい字) を、対応する大きい字として扱う
具体的に対象としたのは次の 10 字。
| 対象 | 順位 | 対象 | 順位 | 対象 | 順位 | 対象 | 順位 | 対象 | 順位 |
|---|---|---|---|---|---|---|---|---|---|
ぁ | 107 | ぅ | 137 | ぉ | 124 | ゃ | 52 | ょ | 27 |
ぃ | 113 | ぇ | 102 | っ | 17 | ゅ | 56 | ゎ | 136 |
(4) 和文句点 。 を、和文モールス符号の段落 」 として扱う
書き言葉における句点が、モールス符号における段落に対応すると考えたため。
参照したデータ
1 い 6,906 6.618%
2 う 4,643 4.449%
3 ん 4,366 4.184%
4 し 3,858 3.697%
5 か 3,647 3.495%
6 と 3,317 3.179%
7 の 3,247 3.111%
8 た 3,105 2.975%
9 て 2,793 2.676%
10 な 2,788 2.672%
11 、 2,728 2.614%
12 に 2,304 2.208%
13 。 2,266 2.171%
14 く 2,232 2.139%
15 こ 2,212 2.120%
16 で 2,152 2.062%
17 っ 2,095 2.008%
18 き 2,082 1.995%
19 は 2,025 1.940%
20 ま 1,985 1.902%
21 が 1,975 1.893%
22 す 1,933 1.852%
23 も 1,867 1.789%
24 る 1,859 1.781%
25 ら 1,504 1.441%
26 り 1,487 1.425%
27 ょ 1,469 1.408%
28 お 1,464 1.403%
29 だ 1,413 1.354%
30 つ 1,392 1.334%
31 れ 1,311 1.256%
32 じ 1,309 1.254%
33 あ 1,236 1.184%
34 を 1,216 1.165%
35 け 1,004 0.962%
36 さ 928 0.889%
37 ち 926 0.887%
38 せ 907 0.869%
39 そ 889 0.852%
40 ど 871 0.835%
41 わ 855 0.819%
42 よ 825 0.791%
43 え 818 0.784%
44 ひ 691 0.662%
45 め 661 0.633%
46 ろ 616 0.590%
47 み 568 0.544%
48 「 561 0.538%
49 」 560 0.537%
50 や 559 0.536%
51 ー 558 0.535%
52 ゃ 554 0.531%
53 ご 471 0.451%
54 ほ 458 0.439%
55 ば 455 0.436%
56 ゅ 453 0.434%
57 ね 428 0.410%
58 ふ 421 0.403%
59 ぶ 374 0.358%
60 む 359 0.344%
61 ざ 320 0.307%
62 ぜ 311 0.298%
63 げ 288 0.276%
64 ぎ 273 0.262%
65 び 255 0.244%
66 ず 233 0.223%
67 ぼ 224 0.215%
68 ゆ 214 0.205%
69 1 195 0.187%
70 べ 175 0.168%
71 へ 167 0.160%
72 0 159 0.152%
73 ~ 150 0.144%
74 ぐ 143 0.137%
75 ぱ 137 0.131%
76 2 122 0.117%
77 ( 117 0.112%
78 ) 115 0.110%
79 ぞ 103 0.099%
80 ? 99 0.095%
81 ぷ 90 0.086%
82 づ 83 0.080%
83 ぽ 78 0.075%
84 3 77 0.074%
85 ! 76 0.073%
86 ぺ 75 0.072%
87 - 73 0.070%
88 A 54 0.052%
89 5 48 0.046%
90 E 46 0.044%
91 6 45 0.043%
91 ・ 45 0.043%
93 ぬ 44 0.042%
94 4 43 0.041%
95 R 36 0.034%
96 S 35 0.034%
97 T 33 0.032%
98 D 32 0.031%
98 O 32 0.031%
100 8 31 0.030%
101 I 30 0.029%
102 ぇ 29 0.028%
103 7 26 0.025%
103 ぴ 26 0.025%
105 9 25 0.024%
105 . 25 0.024%
107 ぁ 24 0.023%
108 C 22 0.021%
109 , 21 0.020%
109 L 21 0.020%
111 X 20 0.019%
112 N 19 0.018%
113 P 18 0.017%
113 ぃ 18 0.017%
115 % 17 0.016%
116 > 16 0.015%
116 M 16 0.015%
118 B 15 0.014%
119 F 14 0.013%
119 H 14 0.013%
121 J 13 0.012%
122 G 12 0.011%
123 U 11 0.011%
124 Y 10 0.010%
124 ぉ 10 0.010%
126 Q 8 0.008%
127 ; 7 0.007%
127 K 7 0.007%
129 / 6 0.006%
130 V 5 0.005%
131 = 4 0.004%
132 W 3 0.003%
132 Z 3 0.003%
134 ” 2 0.002%
134 + 2 0.002%
136 ゛ 1 0.001%
136 : 1 0.001%
136 < 1 0.001%
136 ヴ 1 0.001%
136 ぢ 1 0.001%
136 ゎ 1 0.001%
137 ぅ 0 0.000%

1件のコメント