言語データの作成・収集

自然言語処理の研究・開発に利用できる言語データを収集、作成、整備いたします。

私たちは、ご要望に応じて、様々な言語データを収集・作成し、すぐ研究・開発に使っていただけるように整備いたします。

作成・収集方法は、大きく分けて、どこかにすでに存在するデータを集める場合と、新たにデータを作成する場合があります。

すでに存在するものの例としては、Web上のデータや、新聞、雑誌、マニュアルなどの出版物があります。

また、必要に応じて、対象としてふさわしいデータが存在するかどうかといった調査や、存在する場合に、利用条件についての調査を行うことも対応いたします。(すでに存在するデータでは、著作権の処理、個人情報の扱い、使用料などをクリアすることが重要であるためです。)

既存のデータが無い場合は、新たにデータを作成します。作成する場合は、特定のドメインに絞った言語データの作成となることが多いです。テキストの場合、関係する資料を収集したり、経験者を集めて、新規に作文をします。その際、特定のキーワードや状況設定を設定した上で作文をすることが可能です。また、チャット対話を利用してテキストを収集することも可能です。音声データについては、多数の被験者を集めて模擬的に発声したデータを録音します。実際の現場に出向いたり、経験者を集めて録音することも対応しております。