文末を縮約する言い換え表現を集めたデータベース
1. はじめに
文章をさらに短縮することを目指す場合には言い換えが役立ちます。
例えば、
- 本法案が衆議院本会議で審議が始まった。
- 本法案、衆議院本会議で審議。
というような言い換えが考えられます。
実際にこの例文2のような短縮された表現はテレビの字幕あるいは列車の字幕ニュー
スなどでよく見かける表現です。
2. 原理
インターネット上の新聞記事サイトには、
数十文字程度の長さで携帯端末向けに配信されている新聞記事と
数百文字程度の長さのPC用Webブラウザ向け新聞記事があります。
この両者を約3年に渡って収集したコーパスから文末表現の縮約などの言い換え
表現の抽出を機械的に行いました。
まず、Webから収集した携帯向け新聞記事とWeb新聞記事からなるコーパスに対
して記事単位の対応付けを行い、次に文単位の対応付けを行います。
次に携帯向け記事文の文末の表現を形態素解析を用いて抽出し、その文に対応す
るWeb新聞記事の文を集めます。
そしてWeb新聞記事の文の文末から形態素ごとに言い換え先表現を抽出し、
それに対して頻度等を用いた得点付け、および必要な名詞を欠落させてしまう不
適切な言い換えの除去を行うことにより言い換え表現の抽出精度向上を行いまし
た。
詳細については参考文献をご覧ください。
岩越守孝, 増田英孝, 中川裕志:
Webと携帯端末向けの新聞記事の対応コーパスからの文末言い換え抽出,
自然言語処理, Vol.12, No.5, pp. 157-184 (2005).
3. データベース使用例
3.1 謝辞
本データベースを公開するにあたって、開発に尽力を頂いた
本学大学院修士課程修了の
岩越守孝 氏、佐藤大 氏、大森岳史 氏に感謝します。
各種新聞記事を公開してくださった新聞社に感謝します。
3.2 使用例
PC向けの長い記事を「言い換え元」、携帯電話向けの短い記事を「言い換え先」とします。
例:
言い換え元 | 言い換え先 |
分かった | 判明 |
を発表した | 発表 |
言い換え抽出結果の参照
4. 使用条件
使用にあたり、以下の各点にご留意ください。
- 本データベースの利用は無償である。
- 本データベースを利用した結果を論文などで公表する際には、
「東京電機大学増田研究室・東京大学中川研究室で開発されたデータベースを使用した」
ことを明記されたい。
- 本データベースの使用において生じたいかなる結果に関しても当方では責任を負わない。