言語資源検索 - SHACHI: Language Resource Metadata Database

言語資源の登録件数: 3330件 2023 件中 241 - 250 件目

C-000538: デジタル音声データベース(セットA)
多数の発声のプロが、文、単語等定型の内容を発声した音声データベースです。
日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。
全20タイトル（1タイトルにつき１話者の発声を収録）
- hasVersion: C-000539: デジタル音声データベース(セットB)
- hasVersion: C-000540: デジタル音声データベース(セットC)
- hasVersion: C-000541: デジタル音声データベース(セットD)
- hasVersion: C-000542: デジタル音声データベース(セットE)
- hasVersion: C-000543: デジタル音声データベース(セットF)
C-000539: デジタル音声データベース(セットB)
多数の発声のプロが、文、単語等定型の内容を発声した音声データベースです。
日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。

新聞、雑誌、小説、手紙、教科書等の文献から無作為に抽出した約１万の文をもとに、音素環境をバランスさせて作成した503文（音素バランス文）が収録されており、発声・発話された音声には詳細な音声セグメントラベル、韻律情報、言語情報が付与されています。
- hasVersion: C-000538: デジタル音声データベース(セットA)
- hasVersion: C-000540: デジタル音声データベース(セットC)
- hasVersion: C-000541: デジタル音声データベース(セットD)
- hasVersion: C-000542: デジタル音声データベース(セットE)
- hasVersion: C-000543: デジタル音声データベース(セットF)
C-000540: デジタル音声データベース(セットC)
多数の発声のプロが、文、単語等定型の内容を発声した音声データベースです。
日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。

新明解国語辞典（第2版、三省堂出版）に所載されている重要単語（5,240単語）から抽出した最重要単語（520単語）、音素連鎖バランス単語（216単語）、数字（15語）、音素環境をバランスさせて作成した503文（音素バランス文）が収録されており、発声・発話された音声には詳細な音声セグメントラベルが付与されています。
- hasVersion: C-000538: デジタル音声データベース(セットA)
- hasVersion: C-000539: デジタル音声データベース(セットB)
- hasVersion: C-000541: デジタル音声データベース(セットD)
- hasVersion: C-000542: デジタル音声データベース(セットE)
- hasVersion: C-000543: デジタル音声データベース(セットF)
C-000541: デジタル音声データベース(セットD)
多数の発声のプロが、文、単語等定型の内容を発声した音声データベースです。
日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。

中学校の教科書やNHKテレビ教材等から選んだ12の小論文（約400文）を朗読したものを収録しています。詳細な音声セグメントラベル、韻律情報、言語情報が付与されています。音声合成の研究を目的としたデータベースです。
- hasVersion: C-000538: デジタル音声データベース(セットA)
- hasVersion: C-000539: デジタル音声データベース(セットB)
- hasVersion: C-000540: デジタル音声データベース(セットC)
- hasVersion: C-000542: デジタル音声データベース(セットE)
- hasVersion: C-000543: デジタル音声データベース(セットF)
C-000542: デジタル音声データベース(セットE)
英国エジンバラ大学の音声技術研究センタ（CSTR）に依頼して作成した英語音声のデータベースです。使用頻度の高い英単語（約5,000語）、音韻バランスのとれた短文（約200文）を収録しています。
音声セグメントラベルが付与されています。
英語の音声認識・音声合成の研究を目的としたデータベースです
- hasVersion: C-000538: デジタル音声データベース(セットA)
- hasVersion: C-000539: デジタル音声データベース(セットB)
- hasVersion: C-000540: デジタル音声データベース(セットC)
- hasVersion: C-000541: デジタル音声データベース(セットD)
- hasVersion: C-000543: デジタル音声データベース(セットF)
C-000543: デジタル音声データベース(セットF)
多数の発声のプロが、文、単語等定型の内容を発声した音声データベースです。
日本国内における標準的な音声データベースとして音声認識等の研究に利用されています。

音素環境をバランスさせて作成した503文（音素バランス文）、比較的よく用いられる外来音節等を含む文（19文）、音声翻訳システム評価用に作成した機能試験文（600文）が収録されており、発声・発話された音声には音声セグメントラベルが付与されています。音声認識・音声翻訳の評価実験を目的としたデータベースです。
- hasVersion: C-000538: デジタル音声データベース(セットA)
- hasVersion: C-000539: デジタル音声データベース(セットB)
- hasVersion: C-000540: デジタル音声データベース(セットC)
- hasVersion: C-000541: デジタル音声データベース(セットD)
- hasVersion: C-000542: デジタル音声データベース(セットE)
C-000549: 日本音響学会新聞記事読み上げ音声コーパス
このコーパスは、毎日新聞記事とATR 音素バランス503文を306人の話者（男女それぞれ153名）が読み上げたデータとそのテキストから構成されている。発話はすべて日本語である。
- references: C-001602: CD-ROM Mainichi Shimbun '92 Data Collection
- references: C-001599: CD-Mainichi Shimbun '93 Data Collection
- references: C-001603: CD-ROM Mainichi Shimbun '94 Data Collection
- references: C-000838: DCS - Mainichi Newspaper 1991-2006 data files
C-000551: 日本語話し言葉コーパス
『日本語話し言葉コーパス( Corpus of Spontaneous Japanese : CSJ ) 』は、日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースであり、国立国語研究所・情報通信研究機構（旧通信総合研究所）・東京工業大学が共同開発した、質・量ともに世界最高水準の話し言葉データベースです。本コーパスは、音声言語情報処理、自然言語処理、日本語学、言語学、音声学、心理学、社会学、日本語教育、辞書編纂など幅広い領域で利用されています。
- replaces: monitor version 2001
- replaces: monitor version 2002
C-000553: 名古屋大学同時通訳データベース
全体で約182 時間の音声を収録し，音声の文字化，視覚化，および，言語分析を完了している。文字化データのサイズは単語数（形態素数）にして約100 万語に達する世界最大規模の同時通訳コーパスである。日常に関する独話（講演）や旅行における対話などを収録している英語と日本語双方向のコーパスである。
- hasVersion: C-003270: Simultaneous Interpretation Database
- hasVersion: C-000464: Simultaneous Interpretation Database (conversation)
C-000560: 1996 English Broadcast News Dev and Eval (HUB4)
LDC97S44 - Speech data LDC97S66 - Dev and eval LDC97T22 - Transcripts

*Introduction*

The 1996 Broadcast News Speech Corpus contains a total of 104 hours of broadcasts from ABC, CNN and CSPAN television networks and NPR and PRI radio networks with corresponding transcripts. The primary motivation for this collection is to provide training data for the DARPA "HUB4" Project on continuous speech recognition in the broadcast domain.

*Data*

The speech files are available in a 19 disc training data set with one additional disc of development data and an additional disc of evaluation data. The following programs are represented in this corpus:

* ABC Nightline
* ABC World Nightly News
* ABC World News Tonight
* CNN Early Edition
* CNN Early Prime News
* CNN Headline News
* CNN Prime Time News
* CNN The World Today
* CSPAN Washington Journal
* NPR All Things Considered
* NPR Marketplace
Transcripts have been made of all recordings in this publication, manually time aligned to the phrasal level, annotated to identify boundaries between news stories, speaker turn boundaries, and gender information about the speakers. The released version of the transcripts is in SGML format and there is accompanying documentation and an SGML DTD file, included with the transcription release. The transcripts are available via FTP.

*Updates*

There are no updates at this time.

*Pricing*

The Reduced Licensing Fee for this corpus is US$200.
- isPartOf: C-000561: 1996 English Broadcast News Speech (HUB4)
- hasFormat: C-000562: 1996 English Broadcast News Transcripts (HUB4)
- isReferencedBy: David Graff, et al. 1997 1996 English Broadcast News Dev and Eval (HUB4) Linguistic Data Consortium, Philadelphia
- isReferencedBy: Specification of the 1996 HUB4 Broadcast News Evaluation(http://www.nist.gov/speech/publications/darpa97/pdf/stern1.pdf)

SHACHI - Language Resource Metadata Database