GoogleとDeepl。特許翻訳で使えるか?

Googleの翻訳機能は少し前まで使えたものではなかったのだけど、久しぶりに使ってみるとかなり良くなっている。

また、Deeplというドイツの企業が提供している翻訳サイトもなかなか賢い。

今回は、これらのフリーソフトが特許翻訳にどの程度使えるのか検証してみよう。

Google翻訳とDeepl翻訳

Google翻訳

言わずと知れたGoogle翻訳

短いフレーズのみならず、ファイルごと翻訳も可能。

Googleアカウントを持っていれば、翻訳履歴も自動で残り、任意で翻訳ペアを保存し、自分のオリジナル辞書を作る事もできる。

Deepl翻訳

ドイツで開発された翻訳サイトDeepl

DeepLの前身は、訳文検索エンジンLingueeで、2017年にその豊富な訳文データをAIを使って翻訳ソフトとしてリリース。2018年には、サブスクでDeepl Proもリリースしているが、日本語に対応していない機能もまだあるので注意。

人間、Google、Deeplを比較

今回比較してみたのは、米国特許庁公開番号US10331558B2のクレーム1。2017年にアップル社から出願されたもの。発明者は、名前から見ると様々な人種が混じっていそうだが賢い方々に間違いない。ネイティブと考えて呈示します。

1. An apparatus comprising:
a first buffer configured to store a plurality of input words;
a table comprising a plurality of entries; and
compression circuitry comprising a first plurality of hardware lanes, wherein in response to receiving an indication of a compression instruction, the compression circuitry is configured to:
assign a first group of two or more input words from the plurality of input words to the first plurality of hardware lanes;
determine at least two of the first group of two or more input words correspond to a same entry of the table;
prior to determining dependencies between input words of the first group:
determine whether to update the table with any of the input words of the first group; and
assign a second group of input words from the plurality of input words to the first plurality of hardware lanes, wherein the second group is different from the first group;
generate a compression packet that stores data corresponding to the plurality of input words.

この出願の日本代理人は調べたのでわかっていますが、あえてここでは記載しません。

日本代理人がなんらかの形(内部翻訳、外部翻訳、機械翻訳等など)で翻訳出願したものと、Google、Deeplを比べていくのだけど、けして日本語訳を批判するものではありません。

また、私自身、少し特許翻訳をやっていただけのおばちゃんなので間違った見解もあると思いますが、それはそれ、いち意見としてサラ~っと聞き流していただければ幸いです。

a first buffer configured to store a plurality of input words;

出願複数の入力ワードを記憶するように構成された第1のバッファと、
Deepl複数の入力語を格納するように構成された第1のバッファ。
Google複数の入力ワードを格納するように構成された第1のバッファ。

Deeplは「input word」を「入力語」と翻訳。これ以降、「入力語」と「入力ワード」が混在している。Googleも途中から混在。

出願み原稿では「store」を「記憶」、Deepl、Googleでは「格納」となっている。どちらでも間違いではないが、バッファの役割から考えると「格納」のほうがいいだろう。事実、Google検索すると「バッファに記憶」より「バッファに格納」の方が多く使われている。文の内容自体は出願と同じ。

a table comprising a plurality of entries; and

出願複数のエントリを含むテーブルと、
Deepl複数のエントリからなるテーブルと
Google複数のエントリを含むテーブル。

Deeplは「comprising」を「からなる」と翻訳。そもそも英文原稿にcomprisingが使われており、発明要素内でcomprisingを使う事自体日本の特許翻訳ではタブー。日英翻訳の基本では「including」や「having」とするので「含む」「有する」等が慣例かもしれない。しかし、日本の知財高裁は、「からなる」の意味は、明細書や審査経過によって決まると判断しており、請求項で使っても権利範囲に影響はない(かもしれない)ので、「からなる」でも構わないと思われる。文の内容自体は出願と同じ。

compression circuitry comprising a first plurality of hardware lanes, wherein in response to receiving an indication of a compression instruction, the compression circuitry is configured to:

出願第1の複数のハードウェアレーンを含む圧縮回路であって、圧縮命令の指示を受け取ることに応答して、
Deepl第1の複数のハードウェアレーンからなる圧縮回路であって、圧縮命令の指示を受信することに応答して、圧縮回路は以下のように構成されている。
Googleそして
第1の複数のハードウェアレーンを含む圧縮回路。
圧縮命令の指示の受信に応答して、圧縮回路は以下のように構成される。

DeeplもGoogleは、「the compression circuitry is configured to」の部分をここで訳出しているが、英文原稿の構造上しかたがない。文の内容自体は出願とほぼ同じ

assign a first group of two or more input words from the plurality of input words to the first plurality of hardware lanes;

出願前記複数の入力ワードからの第1の群の2つ以上の入力ワードを前記第1の複数のハードウェアレーンに割り当てることと、
Deepl前記複数の入力ワードのうちの2つ以上の入力ワードの第1のグループを前記第1の複数のハードウェアレーンに割り当てることと
Google複数の入力ワードからの2つ以上の入力ワードの第1のグループを第1の複数のハードウェアレーンに割り当てる。

「a first group of two or more input words」を出願では「第1の群の2つ以上の入力ワード」、DeeplとGoogleは「2つ以上の入力ワードの第1のグループ」としている。この場合の「a first group」と「two or more input words」の関係は「第1群は2つ以上の入力ワードからなる」ということ。もっと言えば、「バッファにたくさん格納されている入力ワードのうち、特定の2つ以上の入力ワードを第1の入力ワード群と称する」ということ。だから、出願のように「第1の群の2つ以上の入力ワード」とすると「第1群の一部の入力ワード」と解釈されなくもない。だから、個人的にはDeeplとGoogle、よりDeeplの方が正確であると思う。

また、ここでDeeplに注目してほしいのだが、「The」を「前記」と訳している。請求項以外の部分を訳しても「The」を「前記」とはしなかった。特許に関するなんらかのアルゴリズムが働いているのかもしれない。

determine at least two of the first group of two or more input words correspond to a same entry of the table;

出願前記第1の群の2つ以上の入力ワードのうちの少なくとも2つが前記テーブルの同じエントリに対応すると判定することと、
Deepl2つ以上の入力ワードの第1のグループのうちの少なくとも2つの入力ワードがテーブルの同じエントリに対応することを決定すること。
Google2つ以上の入力単語の最初のグループの少なくとも2つがテーブルの同じエントリに対応することを決定します。

ここで注目したいのは、「at least two of the first group of two or more input words」。Deeplだけ「少なくとも2つの入力ワード」としている。ここでの「入力ワード」は、原文にはない。Deeplが「2つ」とは何を指すのかを導き出して加えているのだ。

また、Google翻訳では、語尾が「ですます調」に急に変わっており、少し不安定さを露呈している。

prior to determining dependencies between input words of the first group:

出願前記第1の群の入力ワード間の依存関係を判定する前に、
Deepl前記第1のグループの入力ワード間の依存性を決定する前に
Google最初のグループの入力単語間の依存関係を決定する前に

細かな訳語の差はあるが、三者ほぼ同じ訳である

determine whether to update the table with any of the input words of the first group; and

出願前記第1の群の前記入力ワードのいずれかで前記テーブルを更新するか否かを判定することと、
Deepl前記第1のグループの入力語のいずれかで前記テーブルを更新するかどうかを決定する;そして
Google最初のグループの入力語のいずれかでテーブルを更新するかどうかを決定します。

細かな訳語の差はあるが、三者ほぼ同じ訳である

assign a second group of input words from the plurality of input words to the first plurality of hardware lanes, wherein the second group is different from the first group;

出願前記複数の入力ワードからの第2の群の入力ワードを前記第1の複数のハードウェアレーンに割り当てることであって、前記第2の群は前記第1の群とは異なる、ことと、
Deepl前記複数の入力ワードのうちの第2のグループを前記複数のハードウェアレーンの第1のグループに割り当て、前記第2のグループが前記第1のグループとは異なる場合には
Googleそして
複数の入力ワードからの第1の複数のハードウェアレーンに第2のグループの入力ワードを割り当てる。
ここで、第2のグループは第1のグループとは異なる。

ここでは、Deepl、Google共に混乱がみられる。Deeplにいたっては、「wherein the second group is different from the first group;」を「前記第2のグループが前記第1のグループとは異なる場合には」と仮定法になっており、明らかな誤訳。逆に、Googleはお見事である。

generate a compression packet that stores data corresponding to the plurality of input words.

出願前記複数の入力ワードに対応するデータを記憶する圧縮パケットを生成することと、 を行うように構成された、圧縮回路と、
を備える、装置。
Deepl前記複数の入力ワードのうちの前記複数の入力ワードに対応するデータを格納する圧縮パケットを生成すること
Google複数の入力ワードに対応するデータを格納する圧縮パケットを生成する。

Deeplの訳に混乱が見られる。最初の「前記複数の入力ワードのうちの」は原文にはない。訳文を補おうとしているのが仇となったパターン。誤訳である
Googleは「前記」を補えばそのまま使える。

比較結果

見ての通り、Google、Deeplともに、訳語のゆれ(同じ単語に異なる訳をあてる、誤訳、文の構造を把握しきれていない点がある。

まだ、人間の目でチェックして手直しする必要がある。それには、ある程度の英文読解、調査能力も求められるだろう。

でも、こんなフリーソフトでさえここまでできるのだ。上手く使えば、かなりの時間短縮になるんじゃない!?(6割方そのまま使えそう?)

もしかしたら、翻訳者よりもチェッカーの役割が重要になって需要も伸びるのかもしれないですね。そうなると、薄利多売、安い単価で大量の英文を読み込む人材が必要になる。

憧れの職業であったキャビンアテンダントが空飛ぶウェートレスになったように、翻訳家も憧れの職業である時代は終わってしまうのか!?

これからの翻訳業界どう変わるのか見守りたいと思います。

50女の心得

古巣を見守る

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です