従来,言語研究や工学利用を目的として,形態論レベルから意味論・語用論レベルまで様々なアノテーションが新聞記事やウェブテキスト等を主な対象として提案され実施されてきた.2011年12月に『現代日本語書き言葉均衡コーパス』(BCCWJ)が一般公開されたことによって,新聞記事やウェブテキストに限られない多様なジャンルのテキストが単一のコーパスとして共有化された.これに対してジャンル横断的に種々のアノテーションを適用することにより,異なるレベルのアノテーションを重ね合わせて利用する可能性が生まれた.本テーマセッションではBCCWJのコア(約130万語)の全体ないし一部を対象としてこれまでに実施されたアノテーションの試みの紹介,新しいアノテーション仕様の提案,構築事例,支援環境,共有化,言語処理・言語研究での新しい応用に関する研究発表を公募する.
ライトニングトーク募集のお知らせ 本テーマセッションでは『現代日本語書き言葉均衡コーパス』に対するさまざまなアノテーションについての情報を集積するべく,総合討議の時間にライトニングトークを企画しております.既発表の研究でも,現在進行中の研究でも構いません.1件あたり持ち時間5分のライトニングトーク希望の方は,本テーマセッション企画担当(浅原(国語研) masayu-a/at/ninjal.ac.jp )まで 2月末を目途に発表予定タイトルをご連絡ください.
2012年年次大会のテーマセッション,東日本大震災ビッグデータワークショップ,「自然言語処理」特集号「災害情報と言語処理」など,災害情報における言語処理に関する研究の重要性が増しています.このような災害情報における言語処理に関する研究は,一過性のものではなく,常に研究をして準備をしておく必要性があります.そのため,本テーマセッションは,昨年度に引き続き,災害時における言語情報処理技術の役割を見つめ,インターネットなどで溢れる言語情報を,いかに整理し,必要としている人に提供するかに関する議論・アイディアの共有を目的とします.防災・減災・災害時の言語情報処理に関するあらゆる課題を対象とします.特に,日常的に有効であり,災害時には更に有効な言語処理に関する話題を歓迎します.
また,本テーマセッション内では招待講演として,「東日本大震災ビッグデータワークショップ - Project 311 -」の運営委員会の一人であるグーグル株式会社の賀沢秀人氏より,ワークショップのまとめや今後の展開について,言語処理との関係やデータ提供者からのフィードバックについても言及していただきながら,ご講演をいただきます.
医療分野で,自然言語処理技術の発展が期待されている.医療分野は,診療情報から会計情報,画像情報と,取り扱う情報が多彩で量も多く,その中でも,自然言語データの重要性は高い.昨今指摘されている医療従事者の労働環境を改善していく上で,こうした特徴を有する医療用情報システムの高度化は欠かせず,その中核技術として,自然言語処理技術の発展は必須である.本セッションでは,医療において言語処理に何ができるか,何が必要とされているか? を医療従事者も交え議論できるようにしたい.