形態素解析、構文解析、機械翻訳、自動要約、固有表現抽出、質問応答等といった自然言語処理の要素技術で利用するための正解データを作成いたします。
正解データは、精度が非常に重要であるため、人手を中心としてデータを作成します。
正解データの性質は、目的に応じて、カスタマイズいたします。例えば、機械翻訳では、できるだけ逐語訳に近いレベルから、上級翻訳者の翻訳まで、目的に合わせたレベルで用意できます。同様に、自動要約では、対応関係をできるだけ保存した要約から編集経験者による要約まで、キーワード抽出では、キーワードを表層語に限ったレベルから、シソーラスに基づくかなり自由なレベルまで用意できます。
作成したデータは、人手による作業だけではミスを取り去ることができません。そのため、機械を併用して、形式的な整備も合わせて行います。例えばテキストでは、形式の統一、文字コードの統一、不要部分の削除、データベース化のためのフォーマット整備などです。音声データでは、ファイル形式や分解能の変換、発話単位に基づいたデータの分割、音量レベルや余白の調整、特定の雑音の除去などを行います。内容的な面では、形態素解析、読みの付与、対訳の付与などがあります。音声データに基づいたテキストでは、発話ターンの付与、言いよどみや言い間違え箇所のタグ付与、発音表記の付与なども行います。また時間情報を付与し音声とテキストの対応関係を付けることも行います。いずれにしても、そのまますぐにシステムで利用していただけるようにするのが目標です。