自然言語の文書要約って主成分分析っぽくない？

(免責)

この記事は，僕が実際に文書要約を手作業でやってみたら「主成分分析っぽい手触りだ」と感じた，という話です．機械要約とは完全に無関係な，本当に素朴な「人間要約」を実行した人間の感想として読んでくださいね．

僕は自然言語処理についての専門的な知見はほとんど無いし，技術のことも分かってない．2つの Qiita 記事 (2017 & 2020) を読んで下記3点を知った程度．現代的な手法では深層学習が使われてるのを見ると，主成分分析みたいな線形な概念は (比喩としてすら) 不適当かも知れないね．

機械要約の手法には Extractive と Abstractive がある
抽出要約は，分類タスクとして定式化できる
抽象要約は，Encoder-Decoder で実装される

第1主成分がその文書の要旨 (かも？)

乱文を34個も要約して思ったのは「文書要約って主成分分析に似てる！」ということ．「話題空間」という空間を考えてみると，ある文書が含む話題は空間中の色々な点に対応する．そして文書は最も主張したいことについて繰り返し言及するし，その言及は単なる繰り返しではなく，色々な切り口から行われる．

ということは，「話題空間」中に文書の話題をマッピングしたときに，最も分散の大きいベクトルこそがその文書の要旨ではないか？つまり，要旨は空間中の「要旨直線」に沿うように位置してくれるのではないか？というようなことを考えたのでした．

第1主成分の分散が大きいほど，多様な切り口から論点に迫っていることを意味する．つまり議論がより包括的で網羅的だということを意味するし，さらには読みやすさにも関連するかも知れない．そんなことを，要約しながら考えた．

第2主成分の分散が大きいと読みにくい (？)

僕が大学生のときに書いたレポートは，要旨を見抜くのが難しい (つまり，何を言ってるのか分かりにくい😅) ものが多い．その理由は，論旨と関係がない余計な内容が多いからだと，要約をしているときに感じた．結論と関係する事実のみに端的に言及してればスッキリした文章として成立するのに，要らないことを言い過ぎてる．要旨と関係がない言及は，文書自体の鋭さを損なう原因になる．

ということは，第2主成分の分散が大きいことは，焦点がボケて曖昧な文書であることを意味するかも．第2主成分は要旨と直交 (つまり，無関係) だしね．引き締まった議論であれば第2主成分の分散は小さいところ，散漫な議論ではそれが大きい．つまり文書の「散漫さ」を反映する指標になるのかも．そんなことを，要約しながら考えた．