私のオン宅エンジン: 2017

選択体系機能言語学（SFL(Systemic Functional Linguistics)理論)とは、何であろう？

機械翻訳の検索をしていると、未だ知らない重要な理論があることを知った。

ようやく言語の文法から解放されたかと思い、安心していた矢先のことだが、どうやら大変重要な理論であることを知った。果たしてこれをAIや統計翻訳で取り入れることができるものか、かなり難しい気がする。

そもそも現在使われているAIや統計翻訳のやり方は、対訳ベースであり、主にバラバラな単文に対応できるように設計されている。日常会話ではこれのほうが有効かもしれないが、論文や書籍ではこの方法だと、さらに統一的な視点や主題的視点を扱えないと考えられる。

こんな意味で語用論が重要だと考えてきた、これからはこの意味で、SFL理論が言語を機械的に扱う上で、非常に重要なフレームワークと考えている。
又単に翻訳だけでなく、一つの文章の意味を解析する上でも非常に重要な理論であると思う。

どうやら、機械翻訳も本格的な段階にたどりついたようだ

seq2seqで、各言語で大量の文を解析して学習させるだけで、機械翻訳ができてしまうようだ、会話もできるようになるとのこと。

openNMTはニューラルネットワークで機械学習するツールでいよいよ簡単に機械学習ができるような時代になりました。

その他、
MANASは文章要約のツールで、im2textはイメージをテキストに変換するツールのようだ、いろいろ試してみたいツールだ。

これで、文法解析などから解放されて、より深い意味解析ができるようになります。
それも先人達が書いてきた、文章の計算だけで大量の再利用かのうな知識がまとめられる時代が来るのでしょう。

なにやら夢を見ているようだ。。。

ディープラーニングの学習いよくを高めるツールで、いままで積読の書籍が興味を持って読めるようになりました。
これからは、用意するデータや試してみることで利用の可能性を追求できる良きツールとなりそうです。

色々調査してたら、便利なチートシートを見つけたので、
https://github.com/kailashahirwar/cheatsheets-ai

ただし、ここでは何も解決されていない、例えニューロンを使い会話や翻訳ができても、目的は達成ができるが、肝心な意味や内容は取得できるかは、別物でありこれを又分析して評価できないといけない。つまりサービスを代行してくれたのにすぎない。本当の意味や内容を制御する仕組みをどう作るかがこれからの課題のようだ。

追伸：
さらに最近ではAllenNLPがPytorchを基盤に活躍しそうです。上記で認識に誤りがあるのは、構文解析もしっかり利用していて、SyntaxNetをRNNで利用していてずっと進化を遂げていました。
追記：20181115
今のAIの記事や論文から推察すると、まだまだ発展途上の段階であることを感じる。NLPを単純に数値化することにはどうも納得がいかない。「情報の半分を消してからこれで問題を解け」と言っているような気がする。
追記：20181125
NNのNLPの有効性は理解できたが、単に対訳文を学習させても、語彙や文の構造をドメインで絞りミニバッチへのデータ数を制限しても、
（Seq2Seqの限界や有効性をどう利用できるかが重要なことだとで工夫が必要）
やはりNNの方法だけで翻訳でコントロールする単純なやり方では無理なことが理解できた。
これについては、研究者からの論文や資料にすでに記述されていました。
追記:20181210
まだまだ、検討不足でした。直接機械翻訳とは行きませんが、同一言語で意味の判定をNN系の解析による推論をおこなう方法があることを知りました。
Bowman, Potts, and Manning氏達が論文を2015年に既に発表されていました。今流行りのおしゃべりロボットのツールとして使われているのでしょうか。
追記：20190319
昨年の特許の機械翻訳調査の記事をながめていると、意外と統計的機械翻訳も検討しているようです。現在NN系の機械翻訳が注目されていますが、特許分野ではまだまだ必要な技術なようです。
追記:20190424
SMTの不自然ではあるが、網羅的な翻訳とNN系の自然ではあるが、漏れが存在する翻訳を互いに補いつつある機械翻訳の世界に現状あるようです。
又量子化で発展を遂げている画像系のNN系の処理は確実に成果を上げています。いずれMTにも量子化の流れが来ると予想されます。
もう一つの流れとして、NN系でのGPUから始まった強力な計算も、量子化の流れからFPGAへと変わりつつある時期かもしれません。この分野は日々進歩を遂げているようで目が話せません。
追記:20191021
もうすでに常識的な話になりつつあるようですが、BERTがNLPを大きく改善しているようです。
これからは単語の意味を事前に特徴量として解析し取得した結果で、単語の意味を扱えるようになったので、Word２Vec（単純な）の特徴量よりも改善効果があるようです。
BERTはある単語をマスクしてその周りの単語からマスクした単語の特徴量を求めているようで、様々な言語で特徴量をグーグルさんがTPUを使い提供してくれているようです。

私のオン宅エンジン

2017年10月5日木曜日

SFL理論とは？

2017年8月25日金曜日

機械翻訳の最前線