言語資源の登録件数: 3330件
2023 件中 1541 - 1550 件目
-
C-004168: 新聞記事GDAコーパス2004
本データは新聞記事テキストに対して形態素・統語構造・語義・照応と共参照の情報を付与したコーパスである。これらの付加情報は全て人手修正されている。本データは付加情報のみを提供し、テキスト自体は含まれていない。テキストを含む完全なコーパスを復元するには「CD-毎日新聞'94データ集」を別途購入する必要がある。 語義の情報として岩波国語辞典第五版における語義の識別番号が付与されているが、識別番号に対応する語義の定義文を得るには「岩波国語辞典第五版タグ付きコーパス2004」を入手する必要がある。
- requires: C-001603: CD-ROM Mainichi Shimbun '94 Data Collection
- requires: C-004165: 岩波国語辞典第五版タグ付きコーパス2004
-
C-004170: 京都大学格フレーム(Ver 1.0)
ウェブから収集した日本語16億文を用いて自動構築した格フレーム(述語とそれが格関係をもつ語を記述したもの)。約4万個の述語それぞれについて、平均13個の格フレームが構築されている。
-
C-004174: 甲南大学-教育測定研究所 Konan-JIEM Learner Corpus Third Edition
本コーパスは、日本人英語学習者の233エッセイから成り、文法誤り情報と品詞/句情報が人手で付与されている。 Second Editionからの変更は次の通り:(1)新しいデータセットの追加、(2)構文情報の付与、(3)誤り検出・訂正ワークショップ(EDCW2012; https://sites.google.com/site/edcw2012/)参加システムの出力を収録。
- replaces: 甲南大学-教育測定研究所 Konan-JIEM Learner Corpus Second Edition
- conformsTo: C-000866: The NICT JLE Corpus
- conformsTo: C-001100: Penn Treebank Online
-
C-004176: 甲南大学こどもコーパス
小学生66人を対象に8ヶ月間にわたって収集した児童による日本語文章を収録
-
C-004178: CASTEL/J CD-ROM V1.5
CASTEL/J(日本語教育支援システム研究会)が開発した日本語教育用データとデータベース。論説、映画脚本、小説などから構成される教材テキストデータや辞書データベース、日本語教育用画像データなどから成る。
-
C-004179: A Linguistic Atlas of Early Middle English Version 2.1
LAEME aims to present information about the variation in space and time of linguistic forms found in early Middle English texts. It contains the LAEME corpus of lexico-grammatically tagged texts and a Corpus of Etymologies (CE), which provides a narrative etymology for every form type in the LAEME Corpus of Tagged Texts, and a Corpus of Changes, which explicates the phonological and morphological changes invoked in the CE, and other materials.
- hasVersion: A Linguistic Atlas of Late Mediaeval English
- replaces: A Linguistic Atlas of Early Middle English Version 1.1
-
C-004180: A Representative Corpus of Historical English Registers 3.2
This is a motphologically-tagged, multi-genre historical corpus of British and American English covering the period 1650-1999. The latest version, ARCHER 3.2, consists of ca. 3.2 million words in 1,658 text files, distributed as ca. 1.9 million words in 1,075 British files and ca. 1.3 million words in 583 American files. There are eleven genres (advertising, diaries, drama, fiction, legal texts, letters, journals, medicine, news reportage, science, and sermons). The version 3.2 has improved radically in size, text type coverage, regional coverage, and mark-up (now TEI/xml-conformant and with new POS-tagging).
- replaces: A Representative Corpus of Historical English Registers 3.1
- conformsTo: British National Corpus
-
C-004181: British English 2006
This is a one million word corpus of published general written British English and has the same sampling frame as the LOB and F-LOB corpora. The corpus consists of 500 files of 2000 word samples taken from 15 genres of writing. All of the texts were taken from internet sources.
- conformsTo: C-000751: Brown Corpus
- conformsTo: C-000801: THE LOB CORPUS
-
C-004182: Michigan Corpus of Upper-Level Student Papers
The Michigan Corpus of Upper-level Student Papers is a collection of around 830 A grade papers from a range of disciplines across four academic divisions (Humanities and Arts, Social Sciences, Biological and Health Sciences, Physical Sciences) of the University of Michigan.
-
C-004183: The John Swales Conference Corpus
The John Swales Conference Corpus is a collection of transcripts from an academic conference held in honour of John Swales hosted by the English Language Institute at the University of Michigan. The corpus contains both lectures and question and answer sessions.
- conformsTo: C-003315: MICASE