自然言語の文書要約って主成分分析っぽくない?

最終更新日

(免責)

この記事は,僕が実際に文書要約を手作業でやってみたら「主成分分析っぽい手触りだ」と感じた,という話です.機械要約とは完全に無関係な,本当に素朴な「人間要約」を実行した人間の感想として読んでくださいね.

僕は自然言語処理についての専門的な知見はほとんど無いし,技術のことも分かってない.2つの Qiita 記事 (2017 & 2020) を読んで下記3点を知った程度.現代的な手法では深層学習が使われてるのを見ると,主成分分析みたいな線形な概念は (比喩としてすら) 不適当かも知れないね.

  • 機械要約の手法には Extractive と Abstractive がある
  • 抽出要約は,分類タスクとして定式化できる
  • 抽象要約は,Encoder-Decoder で実装される

第1主成分がその文書の要旨 (かも?)

乱文を34個も要約して思ったのは「文書要約って主成分分析に似てる!」ということ.「話題空間」という空間を考えてみると,ある文書が含む話題は空間中の色々な点に対応する.そして文書は最も主張したいことについて繰り返し言及するし,その言及は単なる繰り返しではなく,色々な切り口から行われる.

ということは,「話題空間」中に文書の話題をマッピングしたときに,最も分散の大きいベクトルこそがその文書の要旨ではないか?つまり,要旨は空間中の「要旨直線」に沿うように位置してくれるのではないか?というようなことを考えたのでした.

乱文を要約する時の僕の脳内の模式図

第1主成分の分散が大きいほど,多様な切り口から論点に迫っていることを意味する.つまり議論がより包括的で網羅的だということを意味するし,さらには読みやすさにも関連するかも知れない.そんなことを,要約しながら考えた.

第2主成分の分散が大きいと読みにくい (?)

僕が大学生のときに書いたレポートは,要旨を見抜くのが難しい (つまり,何を言ってるのか分かりにくい😅) ものが多い.その理由は,論旨と関係がない余計な内容が多いからだと,要約をしているときに感じた.結論と関係する事実のみに端的に言及してればスッキリした文章として成立するのに,要らないことを言い過ぎてる.要旨と関係がない言及は,文書自体の鋭さを損なう原因になる.

ということは,第2主成分の分散が大きいことは,焦点がボケて曖昧な文書であることを意味するかも.第2主成分は要旨と直交 (つまり,無関係) だしね.引き締まった議論であれば第2主成分の分散は小さいところ,散漫な議論ではそれが大きい.つまり文書の「散漫さ」を反映する指標になるのかも.そんなことを,要約しながら考えた.

散漫なスライドの再構成で,要旨を見抜く指針に?

僕は以前 Inkscape を使ってスライドの要旨を抽出する作業をしたことをブログに書いたけど,「なぜこの方法が上手く行くのか?」ということについてはあまり深く考えてなかった.しかし,やっていることを観察してみると「話題空間に話題をプロットする」をやってたんだね.

Inkscape に取り込むと〔……〕「このスライドとこのスライドは意外と論旨が近い」とか「これとこれが並んでるということは,この辺のスライド群の趣旨はつまりこうだな」とかの作業を効率的に進めることができた

講演と書籍で異なる「良い構成」 – 回れ右の内輪差

1枚のスライドは (上手に作られていれば) 1つの話題について語っているから,「話題空間」に点としてプロットできる.スライドを画像にさえしてしまえば,画像ソフトでスライドの主成分分析が (頑張れば) できる!最も分散の大きいベクトルが,そのプレゼンテーションの「要旨」だ.

Inkscape でスライドを主成分分析! (マッピングが終わって整理された状態の画像だけど)

「前任者が作ったスライドを使ってプレゼンする」という機会って,みんなもあるよね?前任者がスライドで何を言いたかったのかを引き継げれば楽だけど,必ずしも作成者から意図を聞き出せるとは限らない.その時はこんな方法で「さて,このスライドの主張は何だ?」とスライド全体を俯瞰してみるといいかも知れないね.

1件のコメント

コメントを残す

回れ右の内輪差をもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む