はじめに
note の「AI翻訳体験記 -前編-」で、「各翻訳サイト/サービスで生成した全文を掲載予定です。」と言ってから、随分と時間が経ってしまいました。
当初、各訳文の文章ごとにコメントを入れながら記事を作成していたのですが、断念しました(笑。
全文ともなると時間が掛かりすぎるのと、さらに、記事が長ーーくなり過ぎてしまうので、途中で切り上げた次第です。
さて、どうしたものかと考えていたのですが、以前からワードクラウドで用語のバラツキを見てみたいと思っていたので、「User Local」さんのAIテキストマイニングを使って見てみることにしました。
ここで、各翻訳サイト/サービスで生成した文の頻出語を抽出し、公開されている翻訳文の頻出語と比較して、どの程度の違いが見られるのかやってみようということです。
そして、各翻訳サイト/サービスで生成した全訳文と、AIテキストマイニングで作成した頻出用語一覧表を、有料となりますが、見て頂けたらと思います。
ワードクラウドで用語のバラツキを見る!
【原文:WO2018222268 / 翻訳文:特表2020-523805】
原文は「レーダー」「無線通信」「信号」の出現回数が多いようですね。
【Google翻訳】
Google翻訳は、原文と同じく「レ-ダー」が中心に来ています。特徴として「できる」が多く使われているようです。
【DeepL】
DeepLも原文と同じく?「レーダ」が来ているのですが、「レーダー」ではありませんね。ワードクラウドの右側の方に「レーダー」があり、どうやら訳揺れがあるようですね。
【みらい翻訳】
みらい翻訳は、DeepLと同じように「レーダ」が多いようです。さらに「できる」も多用しているようですね。
【T-4OO】
T-4OOは、他のと比較して大きく変わっています。無線通信が中心にきています。よく見ると、右上の「レーダー」と左下の「レーダ」が同じくらいの文字の大きさになっています。おそらく、「レーダー」と「レーダ」が同じくらいの数ずつあることが予想されます。
【T-4OO_類似文学習後】
こちらは、原文に類似した文章をT-4OOに学習させたものになります。大きく変わりましたね。さすがに、類似した文章を学習させただけあって、原文に似たワードクラウドになっています。
【T-3MT】
T-3MTの結果です。中心に「レーダ」が来ています。あとは「できる」と訳出されているところが特徴でしょうか。
【T-3MT_類自分学習後】
こちらは、原文に類似した文章をT-3MTに学習させたものになります。こちらも原文に似たワードクラウドになっていますね。このように学習機能のあるものは、翻訳精度の向上に多いに役立つことが予想されます。
【Japio】
Japioの結果です。若干、T-4OOに似ているような気もします。中心付近に「信号」や「無線通信」が来ていたり、T-4OOと同じように「レーダー」と「レーダ」との間で訳揺れが生じているようです。こういったものを見ると、それぞれクセみたいなものがあることに気づかされます。
頻出用語-名詞を見てみよう!
各翻訳サイト/サービスで生成した訳文の名詞のうち、上位20の頻出用語は以下のようになります。ワードクラウドでもあったように、「レーダー」、「無線通信」、「信号」が上位を占めています。各生成文で差がみられるのは、「レーダー⇒レーダ」、「無線通信⇒ワイヤレス通信」、「信号⇒シグナル」といったように訳揺れが起こっているためかと思われます。大まかな原文の意味を把握するには問題ないかもしれませんが、特許翻訳では訳揺れは致命的です。抜けのないように訳文を統一する工夫が必要となります。
【原文】
【Google翻訳】
【DeepL】
【みらい翻訳】
【T-4OO】
【T-4OO_類似文学習後】
【T-3MT】
【T-3MT_類似文学習後】
【Japio】
最後に
如何だったでしょうか。各翻訳サイト/サービスの訳文の頻出用語から分かるように、それぞれの訳文に特徴が出てきます。より有効に翻訳サイト/サービスを利用するには、それぞれクセの把握が必要なのではないでしょうか。そして、さらに翻訳精度を高めたければ、学習機能を備えたものを使うことで達成されるでしょう(ただし高額です)。もし、ご興味がありましたら、有料とはなりますが、note に「頻出用語一覧表」と「AI翻訳出力結果一覧表」を用意しましたので、その違いを堪能してみて下さい(注:2020年に取得したデータとなるため、現在の出力結果と異なる可能性があります。ご了承下さい)。
尚、購入頂き得られた資金は、AI・機械翻訳の研究資金として利用させて頂きます!
この記事へのコメントはありません。