言語資源検索 - SHACHI: Language Resource Metadata Database

言語資源の登録件数: 3330件 2023 件中 1601 - 1610 件目

検索条件を選択

description_language
language_area
language
type
subject_monoMultilingual
subject_resourceSubject
type_style
type_form
type_sentence
type_linguisticType
type_discourseType
type_purpose
subject_linguisticField
contributor_author_level
contributor_speaker_level
contributor_author_motherTongue
contributor_speaker_motherTongue
contributor_author_dialect
contributor_speaker_dialect
contributor_author_age
contributor_speaker_age
contributor_author_gender
contributor_speaker_gender
type_annotation

C-004247: 日英翻訳エンジン学習・評価用対訳コーパス (Version 1.0)
International Workshop on Spoken Language Translation (略称 IWSLT)の2005年評価キャンペーンの日英翻訳で使用された基本旅行会話データセットに基づいて作られたコーパスであり、翻訳機器学習用データ：20,000文、評価用データ：1,500文（日英対訳文）から構成される。配布したデータを用いて、各研究機関が開発した機械翻訳手法の精度の確認と当時の参加者のシステムとの比較を行うことができる。
- references: IWSLT基本旅行会話データセット
C-004248: A Chinese Dependency Parser（CNP）用中国語解析モデル Version 1
NICT言語基盤グループからオープンソースソフトウェアとして配布している係り受け解析器（A Chinese Dependency Parser，略称CNP）Version 1のための中国語解析用モデルパラメータ。Language Data Consortium (LDC) より配布されているChinese Treebank 4.0，5.0，6.0および Chinese Gigaword を用いて学習した、GBK/UTF-8 文字コード用のモデルを提供。本モデルをCNPと共に用いることにより、高精度な中国語係り受け解析が可能になる。
- references: C-000694: Chinese Treebank 4.0
- references: C-000695: Chinese Treebank 5.0
- references: C-003303: Chinese Treebank 6.0
- references: C-000689: Chinese Gigaword Second Edition
C-004249: 意見（評価表現）抽出ツール用モデル Version 1.2
本データベースは、独立行政法人情報通信研究機構旧知識処理グループ（情報信頼性プロジェクト）によって開発され、ALAGINからオープンソースソフトウェアとして配布されている「意見（評価表現）抽出ツール」のための意見解析用モデルファイルと評価表現辞書から構成される。
- requires: 意見（評価表現）抽出ツール (https://alaginrc.nict.go.jp/opinion/index.html)
C-004250: 日本語高齢者音声データベース
日本語を母国語とする60歳以上の話者の読み上げ音声を収集したデータベース。
C-004251: ノンネイティブ英語音声データベース
非母語話者の英語読み上げ音声を収録したデータベース。
C-004252: 中国語音声データベース
中国各地域出身の母国語話者による中国語（普通話）読み上げ音声および自由発話音声を収録したデータベース。
C-004253: 京都観光案内対話データベース
プロの観光ガイドと、旅行者を模した被験者の2名による対面対話を収録し、書き起こしたデータ。1対話はおよそ30分。ガイドの音声はヘッドセットマイクにより収録。ユーザ音声は、スタンドマイク、またはヘッドセットマイクを用いて収録。
C-004254: 日本語小学生音声データベース
小学校１年生から４年生までの話者が読み上げた旅行会話及び音素バランス文章を収録したデータベース。
C-004255: 日本語音声データベース
音素バランス文などの文や定形単語を発話内容とする、プロナレータによる多数話者日本語音声データベース。発話内容により、４つのセット（Aセット、Bセット、Cセット、Dセット）から構成されている。
- references: ATR音素バランス文503文
C-004256: 日英・日中バイリンガル独話音声データベース
日英または日中のバイリンガルである声優または一般人が発声した音声コーパス。発話スタイルは、演説を中心として、読み上げ調も含む。少数の話者が長時間の収録を行った長時間編と多数の話者が短時間の収録を行った短時間編から構成される。

SHACHI - Language Resource Metadata Database