2019年3月29日金曜日

遺伝子情報の世界

遺伝子情報なんて何年かまえには、複雑でデータ量が大きい単なる暗号文字の世界かと思っていました。

近頃、バイオインフォマティクスとはなんであるか少しづつ気になっていましたが、今では遺伝子情報の一部が公開されたHPがあることにリンクをたどっていくうちに見つけました。
当然遺伝子のワードを目的に検索すればすぐたどり着けるとは思います。

内容はタームが英語しかないです。これは遺伝子情報が新規なものであるから当たり前ですが、長いアルファベットの文字ばかりが並ぶ独特の雰囲気がサイトにはあります。

なにやら怖いバクテリアみたいな単語が存在しています。これは毒性が高い遺伝子情報なので特別取り上げられているのではと、勝手に推察しました。
とにかく普通に遺伝子情報が圧縮ファイルでダウンロード可能になっていました。
素人の私にはなにか不気味な印象を技術資料で初めて受けました。

小さい頃よく顕微鏡でプランクトンを写真撮影したころを思うと、ここまで生物について人類は探求してしまったのかとつくづく考えることとなりました。

これはSFの世界ではなく、現実に今存在している世界です。

追記:20190410
遺伝子関係の特許文を読むと、どうやら現在は遺伝子情報は完全に情報処理の時代のようです。
例えば、NCBI(国立生物情報センター)の情報は無料で
バイオインフォテックの情報を提供しているようです。

追記:20190709
遺伝子関係がどのような現状世界かが分かる情報は、生物工学会のHPにアクセスするといいようです。
ここでサイトを眺めてみて、
キーワードは、RDF(SPARQL)とNGSと感じました。

2019年3月28日木曜日

特許の世界

今AI時代になり、特許の分野が激変する時期に入ろうとしている。

例えばバイオ関係の特許を眺めてみると、化学の物質名とその量の詳細、遺伝子に関係した詳細な話し等、とても人間業とは思えないような特許明細を見つけることができる。
果たして、この内容を誰がどれだけ完全に把握できているのでしょうか、システムの仕様書よりも複雑かもしれません。

もちろんこんな複雑な特許ばかりではないので、年間32〜40万件程度、日本でも提出されているようです。
世界では既に年間250万件もの特許件数で、もはやこれを管理することは人間業だけでは無理といえよう。

こんな文書は、プロセッサなしでやることではないと考えられますが、今までは人間業でやってきたのでしょうか。

日本の特許庁も日本語での提供と、機械翻訳での英語の明細の公開を始めました。2019年5月からはニューラル機械翻訳を使いより協力になるようです。

試しに眺めてみると、英語の翻訳はまだ完成ではないようです。翻訳できない単語はマスクされていて、文書も英語なのに変なところが大文字で始まり、明らかに不思議な文書になっています。
これは元々特許請求の文面が日本語でも複雑に記述されている性質の為仕方がないのかもしれません。
ところがこれを国際特許に単純に英語に翻訳し、そのまま提出すると、どうやら有効な請求項になっていないので、ガードのためにはある程度有効でしょうが、影響力は限られたものになってしまっているようです。

もはやAI化の波は世界的に広がっているようで、世界的な機関やEUの特許サービスのサイトでも、英語ばかりではなく10種類以上の言語を機械翻訳してくれます。もちろん今は完成していないので、変な日本語でしか表示してくれませんが、昨日だけは既に存在しています。

将来はこの文書を更にAIが読み込んで、再利用する日ももう近くに迫っていることが実感できました。

それにしても日本のサイトよりも、USAやEUのサイトのアクセスが早いことには驚かされました。

追記:20190329
日本のサイトでの日本語と英語の特許文を調べていたら、同じ特許文でありながら、請求項の数が合わないものがあります。請求項は特許の要なので、なぜなのでしょうか?
特許文の特徴は、明細文に番号が振られているところだと思う。
もう一度プログラムで解析しなおしたところ正確に合致していました。
もちろん検索が主目的で、分類記号が詳細に定義されていて、国内と国際で統一されていないところが効率が悪いことですが、日本固有のものが存在するので仕方がないかもしれません。
WIPOは、独自(英語のみ)の機械翻訳とGoogle翻訳(複数言語)、その他2つが選択可能ですが、残念ながらその他は動作を確認できませんでした。
翻訳はシーケンスではなくて、リアルに翻訳が行われているようで、結構なCPUの負荷がサーバサイドでかかっている様子でした。申し訳ないので、今回試したのは日本の特許1件を対象にして使ってみました。
EPOでは、英語しか選択できませんが、翻訳結果は瞬時に結果を返しました。

追記:20190410
特許文を眺めていると、今までにない世界が存在していることが解る。例えば遺伝子情報関係の特許文などは門外漢の私は、全てが暗号記号にしか見えない。それでも現在は特許文に書いてあるURLのサイトをアクセスすると、そこから又情報の連鎖が始まる。
R言語やProlog言語で遺伝子情報を解析して勉強できる時代はもう来ていると感じた。

追記:20190425
Google Patentsをアクセスしてみると、とんでもなく簡単に全文検索や対訳文にアクセスできてしまう。
又、パテントファミリーを探す上でも簡単です。
日本の特許庁での不自由さは全く無い。
Googleの時間短縮度は抜群なようです。
すでに次のステップへとこの世界は歩みだしていたことを知りました。
それにしても中国の登録件数の多さには驚きを感じます。
追記:20190507
以下の2点で英語中心の対訳データが取得不可能です。
アラビア語はSAとJOの2国が存在しているが、タイトルと概要を読むことが可能。
当たり前の話ではあるが、HINDI語はインドが英語で特許を扱っているので全く存在しない。

追記:20190515
日本の特許庁の検索機能が新規にリニューアルされました。
早速検索しましたが、ページの構成は以前のものよりも改善されていました。日英の翻訳文も改善されているようです。
でもとても応答が遅く10年前に戻ってしまったようです。
やはり平日の昼間はアクセスが大量で無理なのかもしれません。
今後次第に改良されてくれることを期待したいです。

追記:20190526
今やUSがCNの知財権を批判しているが、CNの申請件数をみるとCNが将来世界一になる可能性が予想できる。この時JPはどうするのか、内容の詳細を検討した結果ではないが、申請件数を見る限り驚異を感じる状態であることは確かにある。

2019年2月12日火曜日

Coq言語に勢いを感じる

Coqについて検索してみると、面白い研究がなされているようです。

Coqは自動証明ができるプログラム言語で以前から興味がありましたが、改めて注目したい言語のようです。

既に、Haskellの抽出可能なようです。何故変換という言葉を使わないのか疑問に感じ少し調べてみましたが、多分ロジックの意味のある部分だけのコードを抽出するようです。

自分は以前からDSLやPrologでプログラム変換を思考してきたので、Coqでも同様のことが行えるので期待できる手法だと強く感じました。

2019年1月8日火曜日

システム開発でのAI化?

今まで、システム開発での直接のAI化はまだはじまっていないと考えていました。

これはどうやら間違いかもです。

 SEQ2SQL: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE USING REINFORCEMENT LEARNING

これから進化すれば、やがてAI化が始まる予兆を感じました。
でもこれは商用での開発なので当たり前なのかもしれません。
これから、システム屋もAIとの戦いが始まったのでしょうか。

追記:20190109
SQLについての最近の動向は以下の論文に掲載されていました。
DialSQL: Dialogue Based Structured Query Generation
ここで対象になっているNLIDBとRNNの話題は注目するべきことだ思った。
追記:20190110
WikiSQLはSeq2SQLから得られたものらしいが、このライセンスは別で、ある程度利用することができるらしい。
有用なリソースであると思う。
追記:20190427
特許をGoogle Patentsで調査したところ、日本からの「ソフトウェア」と「システム」の単語で検索したところ2016年以降発明件数が見つからない。これは従来のシステム開発では新しい手法ではない、AI化が既に始まっていることを示唆しているのではないかと考える。