自然言語にシンタックスハイライトを!形態素解析で!

最終更新日

こういうのあったら面白いのに.

17387eec
これ,便利そうじゃない?

シンタックスハイライトを自然言語に!

プログラムを書くための多くのテキストエディタと統合開発環境では,シンタックスハイライトという機能が採用されている.プログラミング言語の文法をあらがじめエディタに仕込んでおいて,その文法規則に基づいて入力されたテキストを解析.文法的に特別の意味がある箇所には色を付ける.宣言には赤,定数には緑,コメントには紫,みたいな感じ.

シンタックスハイライトの機能的な長所は,文法の誤りをすぐに見つけられるようになる点.予め仕込まれた文法規則に基づいて入力を解析するから,入力したら即座に誤りを見つけることができる.例えば,宣言のつもりで書いた文字列に赤い色が付かなければ,「あれ,おかしいな.綴りを間違えた?ここでは宣言できないのか?いずれにせよ上手く行ってないぞ」ということが即座に分かる.便利でしょ.

この技術を自然言語の記述にも適用したら,この便利さを自然言語の記述の際にも恩恵に預かれるような気がする.多くの人にとって,プログラムを書く機会よりも自然言語を記述する機会のほうが多いでしょ.プログラミング言語のシンタックスハイライトで文法の誤りを早期に発見できる仕組みがあるんだから,自然言語の誤りを早期に発見できる仕組みとしてシンタックスハイライトを応用したって良さそう.

手段はある.やればできる

幸い,日本語の文法を定量的に扱う技術は既に存在してる.「形態素解析」というもの.人工知能に日本語を喋らせたい,理解させたい.そのためには人工知能に日本語を完璧に教えこむ必要がある.そのためには,まず人間が,日本語についてしっかり理解しておく必要がある.そこで開発された技術が「形態素解析」.

形態素解析のエンジンをテキストエディタに搭載すれば,自然言語に対してシンタックスハイライトするような面白いものができるよね!作ってみたいけど,僕のプログラミングスキルではほとんど無理.かなり勉強しないと出来ないだろうなぁ.

こんなことを思いつくのは僕だけじゃくで,別の人も思い付いてる.しかも,俺より8年も早く(2007年に)思い付いてる.このブログですね.少し引用しようか.

プログラムを書く人にとって、シンタックスハイライトは無くてはならない『ありがたい』ものだ。こういう仕組みを自然言語を書くとき (校正などを含む) に利用するような研究とかしてる人いないのかなあ。

例えば品詞によって色を変える。普段から色分けされた状態の文章を見ていれば、色の並びのパターンによって変なこと書いちゃったときに自然と気がつく

jijixi’s diary – シンタックスハイライトのありがたみを自然言語にも , スパロボ W 日記、テッカマン多すぎ編 , スパロボ W 日記、種の扱いテキト..

この人は形態素解析について言及してないけど,まぁきっとそれを意味してるよね.素晴らしいアイデアだと思うんだけど,案外「自然言語 シンタックスハイライト」とかでぐぐってもそれらしい物はヒットしない.むしろこのブログだけがヒットする.うぅむ,案外皆このアイデアには思い至らないのだろうか…

エディタは無理だから,まずは画像だけでも

という訳で,試しに作ってみたのが冒頭の画像.形態素解析のオンラインサービスを利用して,以下の規則で色分けしてみた.

優先度条件斜体
1()に囲われている暗い黄色
2「」に囲われている明るい緑
3接続詞
4格助詞暗い青紫
5連用詞だいだい
6判定詞と,その直前の名詞/名詞接尾辞/補助名詞/冠名詞明るい赤紫
7形容詞語幹または形容詞接尾辞水色
8その他
彩色規則
17387eec
再掲!

この色分けが機能的かどうかは分からないし,そもそも色の選び方がセンス無いかも知れない笑.でもけっこうイケてると思うんだよねー.誰か作ってくれないかしら!

コメントを残す

%d人のブロガーが「いいね」をつけました。