首页 Reuters-21578语料说明

Reuters-21578语料说明

举报
开通vip

Reuters-21578语料说明Reuters-21578语料说明 1,Reuters-21578 Reuters-21578分布在22个文件中,从reu2-000.dgm到reut2-020.sgm每个文件包含1000个文档,reut2-021.sgm包含578个文档。 (1)文件格式: 22个文件每个都以一个文档类型声明开始,格式如下: 每篇文档都以以下以标记开始(其中??代表一个恰当的值): 每篇文档都以标记作为结尾。每个REUTERS标记都包含TOPICS、LEWISSPLIT、CGISPLIT、ULDID和NEWID...

Reuters-21578语料说明
Reuters-21578语料说明 1,Reuters-21578 Reuters-21578分布在22个文件中,从reu2-000.dgm到reut2-020.sgm每个文件包含1000个文档,reut2-021.sgm包含578个文档。 (1)文件格式: 22个文件每个都以一个文档类型声明开始,格式如下: 每篇文档都以以下以标记开始(其中??代 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 一个恰当的值): 每篇文档都以标记作为结尾。每个REUTERS标记都包含TOPICS、LEWISSPLIT、CGISPLIT、ULDID和NEWID五个属性,每个属性的含义如下: · TOPIC:它的值可能是YES、NO或BYPASS。 · LEWISSPLIT:它的值可能是TRAINING、TEST或UOT_USED。TRAINING代表当前文档在实验LEWIS91d、LEWIS92b、LEWIS92e、LEWIS94b中被当作训练样本使用;TEST代表当前文档在上述实验中被作为测试样本使用;NOT-USED代表当前样本在上述实验中没有使用。 · CGISPLIT:它的可能值是TRAINING-SET或PUBLISHED-TESTSET。表示当前文档是否在实验HAYES89和HAYES90b中作为训练样本和测试样本使用。 · OLDID:代表每篇文档在语料REUTERS-22173中的ID。 · NEWID:代表每篇文档在语料REUTERS-21578中的ID,ID值按照年代顺序进行分配的。 此外,一些TEUTERS标记中还包含第六个属性CSECS,这个标记可以忽略。 (2)文档内部标记: 正如是用来分割文件中的每一篇文档的,还有一些标记用来区分每篇文档中的不同元素。为了便于描述这些标记,我们先介绍一下有关标记的一些规定。如果一个标记在一篇文档中只能出现一次,我们使用ONCE来注解,否则使用VARIABLE;如果一个标记的开始标记和结束标记必须出现在同一行上,我们使用SAMELINE来注解。 · [ONCE,SAMPLE]:表示当前文档的日期和时间; · [VARIABLE]:Setve Finch对原始Retuers语料所做的某些手工校正的注解; · [ONCE,SAMPLE]:表示当前文档所属TOPICS类型的类型列表,每个类型间使用分割开; · [ONCE,SAMPLE]:表示当前文档所属PLACES类型的类型列表,每个类型间使用分割开; · [ONCE,SAMPLE]:表示当前文档所属PEOPLES类型的类型列表,每个类型间使用分割开; · [ONCE,SAMPLE]:表示当前文档所属ORGS类型的类型列表,每个类型间使用分割开; · [ONCE,SAMPLE]:表示当前文档所属EXCHANGES类型的类型列表,每个类型间使用分割开; · [ONCE,SAMPLE]:表示当前文档所属COMPANIES类型的类型列表,每个类型间使用分割开; · [ONCE,SAMPLE]:这个标记用来包括Retuers语料中的控制符和一些噪声文本,或某些难解的素材; · [ONCE]:用来表示当前文档中的文本信息。这些文本信息中也许会包括一些控制符和垃圾素材,而且空格也保留下来。具有以下属性: · TYPE:它的可能值为NORM、BRIEF或UNPROC。NORM是此属性的默认值,表示文档中的普通文本,在这种情况下TEXT标记以简单的形式出现。BRIEF表示当前文档仅仅是一些一两行的短文。UNPROC表示文档的格式在某些风格方面不同寻常,限制了我们对它进行进一步的结构化。 · :表示当前文档的作者。 · :表示当前文档的原始出处和日期。 · :表示当前文档的标题。 · ,:表示当前文档的内容。 (3)类型: Reuters-21578语料共有5套分类体系(Category Set),这五套分类体下如下表所示: Number of Number of Categories Number of Categories Category Set Categories w/ 1+ Occurrences w/ 20+ Occurrences ************ ********** ******************** ******************** EXCHANGES 39 32 7 ORGS 56 32 9 PEOPLE 267 114 15 PLACES 175 147 60 TOPICS 135 120 57 TOPICS是一个有关经济的类别体系,例如:coconut, gold, inventories和money-supply等,过去的研究几乎都是使用的这个分类体系。HAYES90b中讨论了是依据什么原则来确定一篇文档应该属于TOPICS中的哪一个类别的。EXCHANGES, ORGS,PEOPLE和PLACES类型对应于命名实体类型,例如:nasdaq(EXCHANGES), gatt(ORGS), perez-de-cuellar(PEOPLE), australia(PLACES)等。但是,不是所有文档都对应着这四个分类体系中的一个类别,因为必须要求文档的内容充分体现实体。 Reuters-21578包含了五个描述每个分类体系中包含类别的文件,文件名如下: all-exchanges-strings.lc.txt, all-orgs-strings.lc.txt, all-people-strings.lc.txt, all-places-strings.lc.txt, all-topics-strings.lc.txt。 还有一个文件cat-descriptions_120396.txt描述了一些分类体系的附属信息。 Note that a sixth category field, COMPANIES, was present in the original Reuters materials distributed by Carnegie Group, but no company information was actually included in these fields. In the Reuters-21578 collection this field is always empty. In the table above we note how many categories appear in at least 1 of the 21,578 documents in the collection, and how many appear at least 20 of the documents. Many categories appear in no documents, but we encourage researchers to include these categories when evaluating the effectiveness of their categorization system. Additional details of the documents, categories, and corpus preparation process appear in LEWIS92b, and at greater length in Section 8.1 of LEWIS91d. (4)文件示例: 26-FEB-1987 15:01:01.79 cocoa el_SalvadorusaUruguay C T   f0704reute u f BC_BAHIA-COCOA-REVIEW 02-26 0105  BAHIA COCOA REVIEW SALVADOR, Feb 26 - Showers continued throughout the week in the Bahia cocoa zone, alleviating the drought since early January and improving prospects for the coming temporao, although normal humidity levels have not been restored, Comissaria Smith said in its weekly review. The dry period means the temporao will be late this year. Arrivals for the week ended February 22 were 155,221 bags of 60 kilos making a cumulative total for the season of 5.93 mln against 5.81 at the same stage last year. Again it seems that cocoa delivered earlier on consignment was included in the arrivals figures. . . Final figures for the period to February 28 are expected to be published by the Brazilian Cocoa Trade Commission after carnival which ends midday on February 27. Reuter  2,文件cate90.test.smart.txt和cate90.train.smart.txt说明 (1) 标记 a) .I 对应于REUTERS标记中的NEWID属性 b) .C 这个标记的下一行列出当前文章所属的类别 c) .T 这个标记的下一行列出当前文章的标题 d) .W 这个标记的下一行列出当前文章的内容 (2) Modapte划分:这个划分将整个文档集划分为9603个训练文档和3299个测试文档。其中135个主体类别(topic categories)只有使用了90个类别,这些类别中至少包含一个训练文档和一个测试文档。
本文档为【Reuters-21578语料说明】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_736194
暂无简介~
格式:doc
大小:46KB
软件:Word
页数:4
分类:互联网
上传时间:2013-05-18
浏览量:79