【弁理士の日企画】特許庁が人工知能を具体的にどのように活用するのか考察してみたよ
ドクガクさんの「弁理士の日」にちなんだ企画「弁理士の日記念ブログ企画2016」に参加しています。
今年のテーマは、「知財業界でホットなもの(又は新しいもの)」なので、今年結構話題になった特許庁と人工知能について自分なりに考察したいと思います。
人工知能については独学ですので、間違っていることも多々あるかもしれませんが、読み物として楽しんでいただければ嬉しいです。
特許庁が人工知能の導入を検討
今年の3月に特許庁が「人工知能で業務を効率化できないか調べて欲しい」との公募を始めました。官公庁で人工知能を導入しようとする試みをおそらく始めてで、話題になりました。
この事業には、株式会社エヌ・ティ・ティ・データ経営研究所が入札しました。この会社はこれまでも特許庁のシステムに関わっており、人工知能を特許庁の業務にどこに適用できるかの把握が容易なため、選ばれたと思われます。
【公募】平成28年度「人工知能技術を活用した特許行政事務の高度化・効率化実証的研究事業」の企画提案の公募について
https://www.jpo.go.jp/koubo/koubo/pdf/jinkou_chinou/01.pdf
【入札結果】株式会社エヌ・ティ・ティ・データ経営研究所
人工知能ってそもそも何ぞや
昨今話題になっている人工知能とは、ほとんど「ディープラーニング」という技術のことを指しています。
このディープラーニングと過去の手法との最大の違いは、正解データを教えることで自動的に対象物の特徴を学習していくことです。
例えば、猫の画像を大量に与えると、耳がついていて、目がくりってしているモフモフしている動物が猫だよという条件なしに、猫の概念がわかります。
【参考サイト】
知財とディープラーニングで今の時点でできていることは
これまでに知財にディープラーニングの技術を使ったサービスは、UBIC(ユービック)の特許検索システム「PATENT EXPLORER」があります。
UBICは、特許分類やキーワードだけではなく、特許文書を検索の入力として、特許検索を行うシステムを開発しました。
この検索の凄いところは、これまでの職人技だった検索式の作成をしなくてもよいところです。
僕はまだ使ったことがないですが、近い将来的には、精度がガンガン上がっていきますのでこの方法がスタンダードになっていくと思われます。
【参考】PATENT EXPLORER
調査対象の特許文書に対して、関連性の高い文書を人工知能が判断して自動で順番に表示します。さらに関連性の高い段落をピンポイントで表示するため、全ての文書を見返す必要がありません。またフィードバックをもとに再学習も自動でおこなうため精度を高めることができます。
引用:PATENT EXPLORER - 特許調査・知財戦略支援システム | UBIC Lit i View - 人工知能によるデータ解析
特許庁が人工知能を具体的にどのように活用するのか
それでは、本題の特許庁が人工知能をどのように活用するのかを考察していきましょう。
今回は、「データ」「精度」「効果」の3つの軸から実現可能性を予想したいと思います。それぞれを5段階で評価します。
データ :データ数が十分にあるか
精度 :実用可能な精度を達成できるか
効果 :実現されればこれまでと比べてどれくらい効率化されるか
(1)特許文献の検索(国内のみ)
総合 ★★★★★
データ ★★★★★
精度 ★★★★★
効果 ★★★★☆
適用方法
先ほどのUBICと同様の方法で、入力が明細書などの特許文書で、その文書と似ている順に文献を提示する機能が考えられます。
ただし、UBICはいくつか特許を取っているそうなので、その技術と抵触しないようにすることが必要です。
また、将来的には図面も入力の対象になると考えられます。文書と図面を同時に入力することにより、さらに精度を上げることができるかもしれません。
考察
事前の学習用のデータは、これまでの特実の明細書なので、めちゃくちゃたくさんあります。
精度を5段階中の5にしましたが、これはすぐに高い精度が出せるということではなく、実用化するときに求められる精度がそこまで高くないということです。
精度を求められない理由としては、あらかじめFIなどで絞っておいて、そこからさらに類似順に並び変えるということが想定できるからです。
出願日順よりかはマシだろうと思えば導入は早いかもしれません。
効果は、精度によりますが、明らかに似ている文献などはすぐに見つけてくれるのではと思います。1件あたり10分の短縮でも特許出願件数はかなりの数がありますので、全体では十分に費用対効果が見込めると思います。
(2)特許分類付与
総合 ★★★★☆
データ ★★★★☆
精度 ★★★★☆
効果 ★★★★★
適用方法
特許の明細書などを入力して、FIやFタームを予想する機能が考えられます。
考察
データは、現在、明細書とFI・Fタームの組み合わせが膨大にあります。
ただし、FI・Fタームの中には使用頻度の少ないものもあり、それらのデータ量が足りない場合は、適切に予想することが難しくなります。このあたりをどう解決するかは課題です。
全自動的にFI・Fタームを決めるのであれば高い精度を求められます。
中途半端な精度であれば、修正ばっかり必要となるので、現場からは「かえってない方がマシだ」と言われる可能性があります。
しかし、その前段階として例えばFIのA~Hセクションの分類分けならば、そこそこ高い精度が出せるのではと思います。
- Aセクション 生活必需品
- Bセクション 処理操作;運輸
- Cセクション 化学;冶金
- Dセクション 繊維;紙
- Eセクション 固定構造物
- Fセクション 機械工学;照明;加熱;武器;爆破
- Gセクション 物理学
- Hセクション 電気
上記のように各分野に分けるだけでも、その後のFI・Fターム付与を得意な担当者に振り分けることができますので、効率化は期待できます。
現在でも大きな分類分けを事前に行っているようですが、それよりさらに精度が上がることでしょう。
効果についてですが、FI・Fタームがほぼ全自動になれば相当なコスト削減になりますが、一気には難しいでしょう。
分類分けできる数を増やしながら、トライアンドエラーで徐々に改善を重ねて精度を上げていくと思われます。
【参考】分類付与の方法について
分類付与事業 | 一般財団法人 工業所有権協力センター(IPCC)
(3)紙で提出された書類の電子化(紙から文字を読み取る)
総合 ★★★★☆
データ ★★★★☆
精度 ★★★★☆
効果 ★★★☆☆
適用方法
紙で提出された書類から文字を読み取り、電子化する機能です。
今でもこの機能は使われていますが、さらに精度が高いものを適用できます。
【参考】書面から文字を読み取る(OCR)の精度高いやつ
考察
データですが、すでにPC用に様々なフォントがありますので、それらを学習用データとできます。また、文字を特定するために文字の形だけでなく、文脈の自然さからも判断する場合は(例えば、「工」と「エ」の違いは文字の形よりも文脈から判断する方が適当)、これまでの明細書を学習用データとさせることもできます。
このように「画像」(文字の形)と「文章」という異なるファクターを一気に学習させることができるのはディープラーニングの大きな特徴です。
効果ですが、既にOCR(文字読み取り)はこの業務に取り入れているらしいので(特許庁の担当者に聞きました)、ディープラーニングと既存の技術の精度が明らかに違わない限り導入はされないでしょう。
ただ、文字認識はディープラーニングの得意分野でもあるので、期待はしたいところです。
なお、画像商標から文字を読み取り「商標(検索用)」を作成する業務も同じような方法でできますが、ロゴ化しているぶん結構難しくなります。
ここが改善されれば電子化手数料が安くなることが期待されます。
(4)特許文献の検索(海外)
総合 ★★★☆☆
データ ★★☆☆☆
精度 ★★☆☆☆
効果 ★★★★☆
適用方法
先ほどの「(1)特許文献の検索(国内のみ)」と同様の方法です。
つまり日本語の特許文書を入力として、関連する海外の外国語特許文献を探し出す機能が考えられます。
考察
現在、翻訳はディープラーニングにより精度の向上が続いています。
特許用語という特殊な世界でも翻訳の精度が上がれば、海外の文献を探すことも容易になります。
翻訳は英語→日本語に限ったものではありませんので、中国語やその他の言語でも網羅的に精度の高い検索ができることになるでしょう。
そうすると、特許調査はもはや日本国内だけでは到底足りず、海外が文献検索の中心になっていくと思われます。
特に人工知能、IoTなど新しい技術は日本よりも米国・中国の方が進んでいますので、その傾向はますます強くなるでしょう。
(5)ウィーン図形分類付与
総合 ★★★☆☆
データ ★★★☆☆
精度 ★★☆☆☆
効果 ★★★★☆
適用方法
画像商標を入力して、ウィーン図形分類を予想する機能が考えられます。
考察
ウィーン図形分類はFI・Fタームと同じくデータに偏りがありますので、付与されている数が少ない図形分類をどうするかという問題があります。
また、「12.3.1 衛生施設」という分類であれば、お風呂や蛇口などが出てきて単純に図形の形状だけでは判断できません。
このあたりの概念的な分類もなかなか難しい課題です。
(6)その他
その他にも検討したものの一覧です。
(6−1)すぐには導入できないが実現可能
意匠分類付与
意匠類似画像検索
商標類似画像検索
(6−2)かなり厳しいが、頑張れば実現可能かも
意匠 類否判断
商標 類否判断
商標 拒絶理由通知自動作成(ただし、4条1項11号と3条の一部に限る)
(6−3)現在の技術では相当困難
特許 新規性・進歩性の判断
→論理的な考えや、抽象化などは、現在の技術で達成することは相当困難。ただ、未来はどうなるかわかりませんので、将来的には進歩性判断の候補くらいは出してくれるかもしれません。
特許庁業務に人工知能が使われるとどうなるか、特許庁はどう変わるか
メリット
・審査の迅速化
・先行文献の調査範囲の拡大
→より強固な権利となる
・人件費削減
→印紙代減額。特に、電子化手数料が減額
デメリット
・人工知能の判断に引っ張られる可能性
・出願人との情報格差
→外国語文献が引用文献の中心となることが増え、出願人が調査してもほぼ調べ切れない可能性がある。
→対抗手段としてはUBICなどの人工知能を応用した検索ソフトは必須に
その他
・システム投資の半分くらいは、人工知能関連になる
→人工知能ベンダーは嬉しい
まとめ
印紙代が安くなって、審査が速くなって、審査の質も向上する可能性があります。
ただ、人工知能の技術の進歩は凄まじく、専門家でさえ追いつくのが大変です。
うかうかしていると、すぐに陳腐化する恐れもあり、どれだけ早く導入できるかが鍵となってくると思います。
来年には人工知能をどこに使うかの報告書が出てきますので楽しみです!
最後に
ドクガクさん「弁理士の日企画」お誘いありがとうございました!楽しく記事書けました!