e-Patent トークセッションを終えて – KH Coderの活用法

野崎篤志氏が主催するYouTubeチャネル「e-Patent – 知財情報を組織の力に」のトークセッションにお招き預かりました。

内容としては「特許翻訳とテキストマイニング・機械翻訳技術について」ということで、主にテキストマイニングツールである「KH Coder」の特許翻訳への活用についてお話させて頂き、内心緊張していましたが、楽しい時間でした。

改めまして、野崎さん、ありがとうございます！

途中、話の内容が脱線した部分もありますが、特許翻訳の世界を知らない方にとっては、楽しんで頂けたようで何よりです。

さて、トークセッション内で「KH Coder」のデモンストレーションを行ったのですが、その手順を簡単にですが、以下に記載しました。お役に立てば幸いです。

1）KH Coder を起動すると、以下の画面が表示されます。

2）プロジェクトから「新規」を選択すると以下の画面が表示されます。「参照」から読み込むテキストファイルを選択し、説明欄にはプロジェクトの名前を入力します。

3）テキストファイルが読み込まれると以下の様な画面が表示されます。

4）まずは、「前処理」から「前処理の実行」をクリックします。これはテキストマイニングの下準備になります。

5）前処理終了後、「前処理」から「複合語の検出」を選択し、「TermExtractを利用」をクリックします。これは、名詞句に相当するものを検出します。

6）以下の様な画面が表示されますが、「ＯＫ」を押して下さい。

7）すると複合語のリストが表示されます。これらの複合語から特許の内容を想像していきます。なお、後の簡易用語集作成のため、「全複合語のリスト」をクリックします。

8）すると、以下の様なExcel形式のファイルが出力されます。

9）次に、複合語ではない、単一の単語の頻出度を確認していきます。「ツール」から「抽出語」を選択し、「抽出語リスト」をクリックします。

10）すると、単語単位の「抽出語リスト」が表示されます。先ほどの「複合語リスト」と合わせて、頻出単語より特許の内容を想像していきます。なお、後の簡易用語集作成のため、「Excel出力」をクリックします。

11）Option画面が表示されるので、抽出語リストの形式は「１列」、記入する数値は「出現回数」、出力するファイルの形式は「Excel」を選択し、「OK」をクリックします。

12）すると、以下のようなExcelファイルが出力されます。

13）次に、「ツール」から「抽出語」を選択し、「共起ネットワーク」をクリックします。こちらも複合語等と同様に内容把握のために使用します。

14）オプション画面が表示されます。設定内容の説明は割愛しますが、いろいろ試してみて下さい。設定確認後、「OK」をクリックします。

15）すると、抽出語の共起ネットワーク（よく共に用いられる語を線で結んだもの）が表示されます。円が大きいほどよく用いられる語となります。ここからも特許がどのような内容であるか想像します。もし、複合語、抽出語、共起ネットワークからどのような特許であるか想像できないならば、背景技術などの調査に十分に時間をかけてから翻訳を開始することをオススメします。

16）次に、簡易用語集の作成を行います。作成には機械翻訳ソフトである「PatTranser」を使用します。ここでは、先ほど作成した「複合語」のExcelファイルを使用します。まず、図のように英語の部分を選択します。なお、このソフトに限らず、好みのソフト等でも同じように作成できるかと思いますので、いろいろ試してみて下さい。

17）「PatTranser」は、Excelのアドインとしても使用できます。「アドイン」から「翻訳」を選択し、「選択範囲翻訳」をクリックします。

18）すると、先ほどの選択部分が翻訳された別のExcelファイルが出力されます。

19）先ほどの17）の英語部分と、18）の翻訳部分を対とした図のようなExcelファイルを作成します。このファイルをCATツールの用語集やAI翻訳の用語登録に使用します。ただし、ツールによってファイル形式や対の作成方法が異なることがあるため、適宜、それらの仕様に合わせて作成して下さい。また、これらの訳語はそのまま使用せずに修正しながら使用することをオススメします。

20）次に、KWICコンコーダンスです。「ツール」から「抽出語」を選択し、「KWICコンコーダンス」をクリックします。

21）すると、「KWICコンコーダンス」が開きます。例えば、抽出語に「polymer」と入力し「検索」をクリックすると、以下のような一覧が表示されます。つまり、入力した抽出語が使われている文の一覧が表示されます。複数の文を比較検討することで、訳語の決定に役立てることができます。

22）また、例えば「抽出語リスト」、「共起ネットワーク」の「polymer」をクリックしても同様に表示することができます。

23）なお、一覧表示された文の詳細を確認するには、例えば、以下の上図（KWICコンコーダンス）赤枠をダブルクリックすると、下図（文書表示）のように入力した抽出語が黄色マーカーで塗りつぶされた状態で表示されます。また、下図（文書表示）の赤枠にて他の一覧表示されている文へ移動することもできます。

24）さらに「polymer brush」のような語句を調べたいときは、「追加条件」から「位置：右1」を選択し、「抽出語」に「brush」と入力後「OK」をクリック。そして「検索」ボタンをクリックすると、「polymer brush」を含んだ文の一覧が以下のように表示されます。このように複合語を含む一覧も表示することができます。

以上が、トークセッション内で話した KH Coder の使い方になります。他にもいろいろな用途があると思いますので、研究してみては如何でしょうか。

さて、ここで他のテキストマイニングツールもご紹介しようと思います。時間があればトークセッションでも少しお話させて頂こうと思いましたが、時間が押していたこともあり、ここで簡単にですが紹介させて頂きます。

それは、DJSOFTさんの「EKWords」という無料ツールです。

日本語／英語の文書データからキーワード（単語、連語）を抽出・集計できるツールとなっています。使い方はとてもシンプルで、テキストデータをこの「EKWords」に貼り付けて、解析ボタンを押すだけです。

では、図を使って説明します。

1）EKWordsを起動すると、以下のような画面が立ち上がります。

2）英語の場合は、図の上部にある「英文」にチェックを入れて、左の枠に解析したい英文を貼り付けます。そして、図の右側にある「解析」ボタンをクリックします。

3）すると、緑の点線部分に、解析結果が表示されます。その解析結果が表示されている部分で右クリックすると、「すべてコピー」が選択できます。これでExcelに貼り付けてしまえば、KH Coder と同じ要領で簡易用語集を作成できます。

如何でしょうか。用語を抽出するだけなら「EKWords」の方が使い勝手がよいかもしれませんね。是非、試してみて下さい。

それともう1つ、こういったテキストマイニングツールを使って用語を抽出したものを、トークセッション内やここでも「AI翻訳の用語登録に使う」と言いました。AI翻訳の中には、用語登録機能を持ったものもあります。基本的には、生成される訳文の用語を統一するために使用するのですが、この他にも、場合によるのですが、重要な役割を演じたりします。

この辺りの詳細は、また別の機会に説明させて頂こうと思いますので、楽しみにしていて下さい。

以上、簡単な説明となりますが、皆様のお役に立てれば幸いです。