言語資源の登録件数: 3330件
2023 件中 1981 - 1990 件目
-
C-005029: CD-毎日新聞2015データ集
毎日新聞の東京・大阪本社の朝夕刊最終版を対象とした、毎日新聞2015年の全文記事データ集(タグ付テキストデータ)。
- hasVersion: C-000838: DCS-毎日新聞1991~2006データファイル
- hasVersion: C-001598: CD-Maichichi Shimbun '91 data collection
- hasVersion: C-001602: CD-ROM Mainichi Shimbun '92 Data Collection
- hasVersion: C-001599: CD-Mainichi Shimbun '93 Data Collection
- hasVersion: C-001603: CD-ROM Mainichi Shimbun '94 Data Collection
- hasVersion: C-001600: CD-Mainichi Shimbun '95 Data Collection
- hasVersion: C-003585: CD-毎日新聞2007データ集
- hasVersion: C-004211: CD-毎日新聞2008データ集
- hasVersion: C-004212: CD-毎日新聞2009データ集
- hasVersion: C-004213: CD-毎日新聞2010データ集
- hasVersion: C-004214: CD-毎日新聞2011データ集
- hasVersion: C-004390: CD-毎日新聞2012データ集
- hasVersion: C-005027: CD-毎日新聞2013データ集
- hasVersion: C-005028: CD-毎日新聞2014データ集
- hasVersion: C-003590: CD-毎日新聞2005データ集プラス
- hasVersion: C-003589: CD-毎日新聞2006データ集プラス
- hasVersion: C-003588: CD-毎日新聞2007データ集プラス
- hasVersion: C-004215: CD-毎日新聞2008データ集プラス
- hasVersion: C-004216: CD-毎日新聞2009データ集プラス
- hasVersion: C-004217: CD-毎日新聞2010データ集プラス
- hasVersion: C-004218: CD-毎日新聞2011データ集プラス
- hasVersion: C-004391: CD-毎日新聞2012データ集プラス
- hasVersion: C-005030: CD-毎日新聞2016データ集
- hasVersion: C-005031: CD-毎日新聞2013データ集プラス
- hasVersion: C-005032: CD-毎日新聞2014データ集プラス
- isPartOf: C-005033: CD-毎日新聞2015データ集プラス
- hasVersion: C-005034: CD-毎日新聞2016データ集プラス
-
C-005030: CD-毎日新聞2016データ集
毎日新聞の東京・大阪本社の朝夕刊最終版を対象とした、毎日新聞2016年の全文記事データ集(タグ付テキストデータ)。
- hasVersion: C-000838: DCS-毎日新聞1991~2006データファイル
- hasVersion: C-001598: CD-Maichichi Shimbun '91 data collection
- hasVersion: C-001602: CD-ROM Mainichi Shimbun '92 Data Collection
- hasVersion: C-001599: CD-Mainichi Shimbun '93 Data Collection
- hasVersion: C-001603: CD-ROM Mainichi Shimbun '94 Data Collection
- hasVersion: C-001600: CD-Mainichi Shimbun '95 Data Collection
- hasVersion: C-003585: CD-毎日新聞2007データ集
- hasVersion: C-004211: CD-毎日新聞2008データ集
- hasVersion: C-004212: CD-毎日新聞2009データ集
- hasVersion: C-004213: CD-毎日新聞2010データ集
- hasVersion: C-004214: CD-毎日新聞2011データ集
- hasVersion: C-004390: CD-毎日新聞2012データ集
- hasVersion: C-005027: CD-毎日新聞2013データ集
- hasVersion: C-005028: CD-毎日新聞2014データ集
- hasVersion: C-005029: CD-毎日新聞2015データ集
- hasVersion: C-003590: CD-毎日新聞2005データ集プラス
- hasVersion: C-003589: CD-毎日新聞2006データ集プラス
- hasVersion: C-003588: CD-毎日新聞2007データ集プラス
- hasVersion: C-004215: CD-毎日新聞2008データ集プラス
- hasVersion: C-004216: CD-毎日新聞2009データ集プラス
- hasVersion: C-004217: CD-毎日新聞2010データ集プラス
- hasVersion: C-004218: CD-毎日新聞2011データ集プラス
- hasVersion: C-004391: CD-毎日新聞2012データ集プラス
- hasVersion: C-005031: CD-毎日新聞2013データ集プラス
- hasVersion: C-005032: CD-毎日新聞2014データ集プラス
- hasVersion: C-005033: CD-毎日新聞2015データ集プラス
- isPartOf: C-005034: CD-毎日新聞2016データ集プラス
-
C-005031: CD-毎日新聞2013データ集プラス
毎日新聞の東京・大阪本社の朝夕刊最終版に加え、北海道~鹿児島までの記事(約29万記事)を収録した「地方版」とがセットになった毎日新聞2013年の全文記事データ集(タグ付テキストデータ)。
- hasPart: C-005027: CD-毎日新聞2013データ集
- hasVersion: C-000838: DCS-毎日新聞1991~2006データファイル
- hasVersion: C-001598: CD-Maichichi Shimbun '91 data collection
- hasVersion: C-001602: CD-ROM Mainichi Shimbun '92 Data Collection
- hasVersion: C-001599: CD-Mainichi Shimbun '93 Data Collection
- hasVersion: C-001603: CD-ROM Mainichi Shimbun '94 Data Collection
- hasVersion: C-001600: CD-Mainichi Shimbun '95 Data Collection
- hasVersion: C-003585: CD-毎日新聞2007データ集
- hasVersion: C-004211: CD-毎日新聞2008データ集
- hasVersion: C-004212: CD-毎日新聞2009データ集
- hasVersion: C-004213: CD-毎日新聞2010データ集
- hasVersion: C-004214: CD-毎日新聞2011データ集
- hasVersion: C-004390: CD-毎日新聞2012データ集
- hasVersion: C-005027: CD-毎日新聞2013データ集
- hasVersion: C-005028: CD-毎日新聞2014データ集
- hasVersion: C-005029: CD-毎日新聞2015データ集
- hasVersion: C-005030: CD-毎日新聞2016データ集
- hasVersion: C-003590: CD-毎日新聞2005データ集プラス
- hasVersion: C-003589: CD-毎日新聞2006データ集プラス
- hasVersion: C-003588: CD-毎日新聞2007データ集プラス
- hasVersion: C-004215: CD-毎日新聞2008データ集プラス
- hasVersion: C-004216: CD-毎日新聞2009データ集プラス
- hasVersion: C-004217: CD-毎日新聞2010データ集プラス
- hasVersion: C-004218: CD-毎日新聞2011データ集プラス
- hasVersion: C-004391: CD-毎日新聞2012データ集プラス
- hasVersion: C-005032: CD-毎日新聞2014データ集プラス
- hasVersion: C-005033: CD-毎日新聞2015データ集プラス
-
C-005032: CD-毎日新聞2014データ集プラス
毎日新聞の東京・大阪本社の朝夕刊最終版に加え、北海道~鹿児島までの記事(約28万記事)を収録した「地方版」とがセットになった毎日新聞2014年の全文記事データ集(タグ付テキストデータ)。
- hasPart: C-005028: CD-毎日新聞2014データ集
- hasVersion: C-000838: DCS-毎日新聞1991~2006データファイル
- hasVersion: C-001598: CD-Maichichi Shimbun '91 data collection
- hasVersion: C-001602: CD-ROM Mainichi Shimbun '92 Data Collection
- hasVersion: C-001599: CD-Mainichi Shimbun '93 Data Collection
- hasVersion: C-001603: CD-ROM Mainichi Shimbun '94 Data Collection
- hasVersion: C-001600: CD-Mainichi Shimbun '95 Data Collection
- hasVersion: C-003585: CD-毎日新聞2007データ集
- hasVersion: C-004211: CD-毎日新聞2008データ集
- hasVersion: C-004212: CD-毎日新聞2009データ集
- hasVersion: C-004213: CD-毎日新聞2010データ集
- hasVersion: C-004214: CD-毎日新聞2011データ集
- hasVersion: C-004390: CD-毎日新聞2012データ集
- hasVersion: C-005027: CD-毎日新聞2013データ集
- hasVersion: C-005029: CD-毎日新聞2015データ集
- hasVersion: C-005030: CD-毎日新聞2016データ集
- hasVersion: C-003590: CD-毎日新聞2005データ集プラス
- hasVersion: C-003589: CD-毎日新聞2006データ集プラス
- hasVersion: C-003588: CD-毎日新聞2007データ集プラス
- hasVersion: C-004215: CD-毎日新聞2008データ集プラス
- hasVersion: C-004216: CD-毎日新聞2009データ集プラス
- hasVersion: C-004217: CD-毎日新聞2010データ集プラス
- hasVersion: C-004218: CD-毎日新聞2011データ集プラス
- hasVersion: C-004391: CD-毎日新聞2012データ集プラス
- hasVersion: C-005031: CD-毎日新聞2013データ集プラス
- hasVersion: C-005033: CD-毎日新聞2015データ集プラス
- hasVersion: C-005034: CD-毎日新聞2016データ集プラス
-
C-005033: CD-毎日新聞2015データ集プラス
毎日新聞の東京・大阪本社の朝夕刊最終版に加え、北海道~鹿児島までの記事(約27万記事)を収録した「地方版」とがセットになった毎日新聞2015年の全文記事データ集(タグ付テキストデータ)。
- hasPart: C-005029: CD-毎日新聞2015データ集
- hasVersion: C-000838: DCS-毎日新聞1991~2006データファイル
- hasVersion: C-001598: CD-Maichichi Shimbun '91 data collection
- hasVersion: C-001602: CD-ROM Mainichi Shimbun '92 Data Collection
- hasVersion: C-001599: CD-Mainichi Shimbun '93 Data Collection
- hasVersion: C-001603: CD-ROM Mainichi Shimbun '94 Data Collection
- hasVersion: C-001600: CD-Mainichi Shimbun '95 Data Collection
- hasVersion: C-003585: CD-毎日新聞2007データ集
- hasVersion: C-004211: CD-毎日新聞2008データ集
- hasVersion: C-004212: CD-毎日新聞2009データ集
- hasVersion: C-004213: CD-毎日新聞2010データ集
- hasVersion: C-004214: CD-毎日新聞2011データ集
- hasVersion: C-004390: CD-毎日新聞2012データ集
- hasVersion: C-005027: CD-毎日新聞2013データ集
- hasVersion: C-005028: CD-毎日新聞2014データ集
- hasVersion: C-005029: CD-毎日新聞2015データ集
- hasVersion: C-005030: CD-毎日新聞2016データ集
- hasVersion: C-003590: CD-毎日新聞2005データ集プラス
- hasVersion: C-003589: CD-毎日新聞2006データ集プラス
- hasVersion: C-003588: CD-毎日新聞2007データ集プラス
- hasVersion: C-004215: CD-毎日新聞2008データ集プラス
- hasVersion: C-004216: CD-毎日新聞2009データ集プラス
- hasVersion: C-004217: CD-毎日新聞2010データ集プラス
- hasVersion: C-004218: CD-毎日新聞2011データ集プラス
- hasVersion: C-004391: CD-毎日新聞2012データ集プラス
- hasVersion: C-005031: CD-毎日新聞2013データ集プラス
- hasVersion: C-005032: CD-毎日新聞2014データ集プラス
- hasVersion: C-005034: CD-毎日新聞2016データ集プラス
-
C-005034: CD-毎日新聞2016データ集プラス
毎日新聞の東京・大阪本社の朝夕刊最終版に加え、北海道~鹿児島までの記事(約27万記事)を収録した「地方版」とがセットになった毎日新聞2016年の全文記事データ集(タグ付テキストデータ)。
- hasPart: C-005030: CD-毎日新聞2016データ集
- hasVersion: C-000838: DCS-毎日新聞1991~2006データファイル
- hasVersion: C-001598: CD-Maichichi Shimbun '91 data collection
- hasVersion: C-001602: CD-ROM Mainichi Shimbun '92 Data Collection
- hasVersion: C-001599: CD-Mainichi Shimbun '93 Data Collection
- hasVersion: C-001603: CD-ROM Mainichi Shimbun '94 Data Collection
- hasVersion: C-001600: CD-Mainichi Shimbun '95 Data Collection
- hasVersion: C-003585: CD-毎日新聞2007データ集
- hasVersion: C-004211: CD-毎日新聞2008データ集
- hasVersion: C-004212: CD-毎日新聞2009データ集
- hasVersion: C-004213: CD-毎日新聞2010データ集
- hasVersion: C-004214: CD-毎日新聞2011データ集
- hasVersion: C-004390: CD-毎日新聞2012データ集
- hasVersion: C-005027: CD-毎日新聞2013データ集
- hasVersion: C-005028: CD-毎日新聞2014データ集
- hasVersion: C-005029: CD-毎日新聞2015データ集
- hasVersion: C-003590: CD-毎日新聞2005データ集プラス
- hasVersion: C-003589: CD-毎日新聞2006データ集プラス
- hasVersion: C-003588: CD-毎日新聞2007データ集プラス
- hasVersion: C-004215: CD-毎日新聞2008データ集プラス
- hasVersion: C-004216: CD-毎日新聞2009データ集プラス
- hasVersion: C-004217: CD-毎日新聞2010データ集プラス
- hasVersion: C-004218: CD-毎日新聞2011データ集プラス
- hasVersion: C-004391: CD-毎日新聞2012データ集プラス
- hasVersion: C-005031: CD-毎日新聞2013データ集プラス
- hasVersion: C-005032: CD-毎日新聞2014データ集プラス
- hasVersion: C-005033: CD-毎日新聞2015データ集プラス
-
C-005035: IARPA Babel Lao Language Pack IARPA-babel203b-v3.1a
*Introduction*
IARPA Babel Lao Language Pack IARPA-babel203b-v3.1a was developed by Appen for the IARPA (Intelligence Advanced Research Projects Activity) Babel program. It contains approximately 207 hours of Lao conversational and scripted telephone speech collected in 2013 along with corresponding transcripts.
The Babel program focuses on underserved languages and seeks to develop speech recognition technology that can be rapidly applied to any human language to support keyword search performance over large amounts of recorded speech.
*Data*
The Lao speech in this release represents that spoken in the Vientiane dialect region in Laos. The gender distribution among speakers is approximately equal; speakers' ages range from 16 years to 60 years. Calls were made using different telephones (e.g., mobile, landline) from a variety of environments including the street, a home or office, a public place, and inside a vehicle.
Audio data is presented as 8kHz 8-bit a-law encoded audio in sphere format and 48kHz 24-bit PCM encoded audio in wav format. Transcripts are encoded in UTF-8. The romanization scheme was developed by Appen and was based on the scheme developed by the American Library Association and Library of Congress. Further information about transcription methodology is contained in the documentation accompanying this release.
Evaluation data is available from NIST in support of OpenKWS.- hasVersion: C-004913: IARPA Babel Cantonese Language Pack IARPA-babel101b-v0.4c
- hasVersion: C-004923: IARPA Babel Assamese Language Pack IARPA-babel102b-v0.5a
- hasVersion: C-004924: IARPA Babel Bengali Language Pack IARPA-babel103b-v0.4b
- hasVersion: C-004930: IARPA Babel Pashto Language Pack IARPA-babel104b-v0.4bY
- hasVersion: C-004932: IARPA Babel Turkish Language Pack IARPA-babel105b-v0.5
- hasVersion: C-004934: IARPA Babel Georgian Language Pack IARPA-babel404b-v1.0a
- hasVersion: C-004938: IARPA Babel Tagalog Language Pack IARPA-babel106-v0.2g
- hasVersion: C-004943: IARPA Babel Vietnamese Language Pack IARPA-babel107b-v0.7
- hasVersion: C-004950: IARPA Babel Haitian Creole Language Pack IARPA-babel201b-v0.2b
- hasVersion: C-004977: IARPA Babel Swahili Language Pack IARPA-babel202b-v1.0d
-
C-005037: Phrase Detectives Corpus
*Introduction*
Phrase Detectives Corpus was developed by the School of Computer Science and Electronic Engineering at the University of Essex and consists of approximately 19,012 words across 40 documents anaphorically-annotated by the Phrase Detectives game, an online interactive "game-with-a-purpose" (GWAP) designed to collect data about English anaphoric coreference.
GWAPs for creating language resources are growing. In general, they employ non-monetary incentives, such as entertainment, to motivate participation and can be successful for large-scale persistent annotation efforts.
*Data*
The documents in the corpus are taken from Wikipedia articles and from narrative text in Project Gutenberg. Wikipedia articles and annotation files are presented as XML and Project Gutenberg source files are presented as plain text. All text is encoded as UTF-8. Annotations are comprised of a gold standard version created by multiple experts, as well as a set created by a large non-expert crowd (via the Phase Detectives game).
The data was annotated according to a prevalent linguistically-oriented approach for anaphora used in several tasks, including OntoNotes Release 5.0 (LDC2013T19), SemEval-2010 Task 1 Ontonotes English: Coreference Resolution in Multiple Languages (LDC2011T01) and The ARRAU Corpus of Anaphoric Information (LDC2013T22). -
C-005038: The EventStatus Corpus
*Introduction*
The EventStatus Corpus was developed by researchers at Texas A&M University, Stanford University and The University of Utah. It consists of approximately 3,000 English and 1,500 Spanish news articles about civil unrest events annotated with temporal tags.
This corpus was designed to support the study of the temporal and aspectual properties of major events, that is, whether an event has already happened, is currently happening or may happen in the future. Since it focuses on a single domain (civil unrest events), it may be appropriate for tasks such as event extraction and temporal question answering.
*Data*
The relevant news articles were sourced from English Gigaword Fifth Edition (LDC2017T09) and Spanish Gigaword Third Edition (LDC2011T12). The civil unrest events include protests, demonstrations, marches and strikes. The data was annotated as PAST, ON-GOING or FUTURE and within each of those categories, as PLANNED, ALERT or POSSIBLE.
In addition to the annotated articles, file lists used in experiments for tuning and test are included. 10-fold cross-validations were performed, and the specific 10-fold splits of the test are included as well. All text is presented as plain text and encoded in UTF-8.- references: N-004754: English Gigaword Fifth Edition
- references: N-004768: Spanish Gigaword Third Edition
-
C-005039: ATR地域別英語音声データベース
ATR地域別英語音声データベースは、英語圏6地域(米国北東部/中西部/西部/南部、イギリス、オーストラリア)の男女比と年齢分布をバランスさせた母語話者による英語発話を収録しています。 各話者毎に、旅行会話文や音素バランス文などの「読み上げ発声」音声と、話者の旅行体験談等の「自然発話」音声があります。
- hasVersion: C-005040: ATR地域別中国語音声データベース