下载

1下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 GB 72-002 信息分类和编码的基本原则与方法

GB 72-002 信息分类和编码的基本原则与方法.pdf

GB 72-002 信息分类和编码的基本原则与方法

橡皮泥
2013-11-01 0人阅读 举报 0 0 暂无简介

简介:本文档为《GB 72-002 信息分类和编码的基本原则与方法pdf》,可适用于工程科技领域

ICSA噶日中华人民共和国国家标准GBT代替GBT信息分类和编码的基本原则与方法Basicprinciplesandmethodsforinformationclassifyingandcoding一门发布一一实施中华人民共和国国家质量监督检验检疫总局发布GBT目次前言····························································。·····················································⋯⋯引言·······························。··················································································⋯⋯N范围·············································································································⋯⋯规范性引用文件·······························································································⋯⋯术语和定义··············································。·······················································⋯⋯信息的分类与编码·····························································································⋯⋯信息分类······································································。·······························⋯⋯信息编码······································································································⋯⋯信息分类的基本原则·············。·······································。····································⋯⋯科学性················································。·······················································⋯⋯系统性·········································································································⋯⋯可扩延性·····························································································。······⋯⋯兼容性·····························································。···········································⋯⋯综合实用性······················。············································································⋯⋯信息分类的基本方法·············。············································································⋯⋯概述············································································································⋯⋯线分类法···、····、、·、·······、····‘、··‘·········································一面分类法······································································································⋯⋯混合分类法··················································································。···············⋯⋯信息编码的基本原则···········。·····································。········································⋯⋯唯一性················。························································································⋯⋯合理性·······················。·。···············································································⋯⋯可扩充性······································································································⋯⋯简明性·········································································································⋯⋯适用性·········································································································⋯⋯规范性·······。·································································································⋯⋯信息编码的基本方法··························································································⋯⋯通则············································································································⋯⋯代码类型····。·································································································⋯⋯代码特征·····································································································⋯⋯代码表现形式································································································⋯⋯代码设计······································································································⋯⋯代码赋值约定································································································⋯⋯n附录A(资料性附录)各种信息分类编码方法的优缺点················································⋯⋯A信息分类方法优缺点···················································································⋯⋯A各种类型代码编码方法优缺点·····················································⋯⋯GB'r前言本标准是对GBT《标准化工作导则信息分类编码的基本原则和方法》的修订。在信息编码部分内容上本标准参考了国际技术报告ISOIECTR:(E)《信息技术数据交换用数据元素组织与表示指南编码方法与原理》采纳了其中比较成熟的相关技术内容。本标准代替GBT《标准化工作导则信息分类编码的基本原则和方法》同GBT相比本次修订所作的主要修改是:修改了标准的名称。标准名称改为《信息分类和编码的基本原则与方法》。标准的总体编排和结构按GBT。进行了修改增加了目次、前言、引言和附录Ao一对原标准的内容进行r相应的增删增补的内容包括:第章“规范性引用文件”、第章“术语和定义”和第章“信息的分类与编码”概述删除的内容是原标准的第条“代码的校验”的有关算法。一一对原标准的结构进行了调整:原标准的第条“信息分类的基本原则”调整为第章原标准的第条“信息分类的基本方法”调整为第章原标准的第条“编码的基本原则”调整为第章原标准的第条“代码的种类”和第条“代码的类型”与ISOIECTR的相关技术内容经过整理共同构成第章“信息编码的基本方法”原标准中分散叙述的各个信息分类和编码力法的优缺点集中汇总调整为“附录A各种信息分类编码方法的优缺点”。一对原标准中的代码名称进行了若干项调整:原标准中的“特征组合码”对应于本标准的“并置码”原标准中的“复合码”对应于木标准的“组合码”原标准中的“数值化字母顺序码”被本标准的“约定顺序码”所涵盖在信息分类编码标准化领域本标准应与GB丁《标准编写规则第部分:信息分类编码》和GBT《分类编码通用术语》两项标准配套应用。本标准的附录A是资料性附录。本标准由中国标准研究中心提出并归口本标准主要起草单位:中国标准研究中心。本标准主要起草人李小林、冯卫、胡嘉璋。GBT于年月首次发布本次修订为第一次修订。GsT引言在通常情况下人们对信息的理解是:一切有含义的具体或抽象事物或概念的真相及相关陈述通过数据、消息及其进一步细节表达出来。在信息分类编码领域信息的表现形式是数据。客观、明确的信息是计算机建立信息系统以及数据在其中进行交换的先决条件。在信息系统中数据是用字符(通常为数字或字母)、算术符号以及描述来表示这些表示形式应该对其所涉及的每一个数据都有一个明确稳定的含义从而达到处理与交流的目的。信息要被不同用户组或应用系统所共享就必须有一致认可的定义举例来说要有概念的语义含义(内涵)、概念的全部实例(外延)以及一致认可的表示法。对各类信息概念的正确理解需要依赖于信息分类对各类信息作出一致认可的表示需要依赖于信息编码。GB'r信息分类和编码的基本原则与方法范围本标准规定了信息分类编码的基本原则和方法适用于各类信息分类编码标准的编制规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准然而鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件其最新版本适用于本标准。GBT信息技术信息交换用七位编码字符集(eqvISOIEC:)GB。信息交换用汉字编码字符集基本集GBT中华人民共和国行政区划代码GBT世界各国和地区名称代码(eqvISO:)GBT中央党政机关、人民团体及其他机构代码GBT数据元和交换格式信息交换日期和时间表示法(eqvISO:)GBT分类编码通用术语GB公民身份号码GBT学科分类与代码GBT林业资源分类与代码森林类型GBT用于行政、商业和运输业电子数据交换的应用级语法规则(idtISO:)GBT数据处理校验码系统(idtISO:)术语和定义GBT中确立的术语适用于本标准。信息的分类与编码门信息分类信息分类是根据信息内容的属性或特征将信息按一定的原则和方法进行区分和归类并建立起一定的分类体系和排列顺序。信息分类有两个要素:一是分类对象二是分类的依据。分类对象由若干个被分类的实体组成。分类依据取决于分类对象的属性或特征。信息内容属性的相同或相异形成了各种不同的类。在信息分类体系中类可称为类目。信息编码信息编码是将事物或概念(编码对象)赋予具有一定规律、易于计算机和人识别处理的符号形成代码元素集合。代码元素集合中的代码元素就是赋予编码对象的符号即编码对象的代码值。所有类型的信息都能够进行编码:如关于产品、人、国家、货币、程序、文件、部件等各种各样的信息。信息编码包含的内容有:数据表达成代码的方法、数据的代码表示形式、代码元素集合的赋值。信息编码的主要作用有:标识、分类、参照。GB'r标识的目的是要把编码对象彼此区分开在编码对象的集合范围内编码对象的代码值是其唯一性标志信息编码的分类作用实质上是对类进行标识信息编码的参照作用体现在编码对象的代码值可作为不同应用系统或应用领域之间发生关联的关键字。信息分类的基本原则门科学性宜选择事物或概念(即分类对象)最稳定的本质属性或特征作为分类的基础和依据。系统性将选定的事物、概念的属性或特征按一定排列顺序予以系统化并形成一个科学合理的分类体系。可扩延性通常要设置收容类目以保证增加新的事物或概念时不打乱已建立的分类体系同时还应为下级信息管理系统在本分类体系的基础上进行延拓细化创造条件。q兼容性应与相关标准(包括国际标准)协调一致。综合实用性分类要从系统工程角度出发把局部问题放在系统整体中处理达到系统最优。即在满足系统总任务、总要求的前提下尽量满足系统内各相关单位的实际需要信息分类的基本方法概述信息分类的基本方法有三种:线分类法、面分类法、混合分类法。其中线分类法又称层级分类法、体系分类法面分类法又称组配分类法。线分类法方法线分类法是将分类对象(即被划分的事物或概念)按所选定的若干个属性或特征逐次地分成相应的若干个层级的类目并排成一个有层次的逐渐展开的分类体系。在这个分类体系中被划分的类目称为上位类划分出的类目称为下位类由一个类目直接划分出来的下一级各类目彼此称为同位类同位类类目之间存在着并列关系下位类与上位类类目之间存在着隶属关系。示例GBT《林业资源分类与代码森林类型》是采用线分类法并用五位数字代码进行表示的。该标准将森林类型分成三个层级第一层级用第一、二位数字码表示森林植被型第二层级用第三位数字表示森林类型组第三层级用第四、五位数字表示森林类型。部分代码表见表to表代码类型名称经济林饮料林茶叶林咖啡林可可林鲜果林苹果林梨树林桃树林在表中经济林相对于饮料林、鲜果林为上位类类目饮料林、鲜果林相对于经济林为下位类类GsT目饮料林、鲜果林是同位类类目同理饮料林相对于茶叶林、咖啡林、可可林是上位类类目茶叶林、咖啡林、可可林是饮料林的下位类类目茶叶林、咖啡林、可可林是同位类类目。要求a)由某一上位类划分出的下位类类目的总范围应与该上位类类目范围相等b)当某一个上位类类目划分成若干个下位类类目时应选择同一种划分基准c)同位类类目之间不交叉、不重复并只对应于一个上位类d)分类要依次进行不应有空层或加层。面分类法门方法面分类法是将所选定的分类对象的若干属性或特征视为若干个“面”每个“面”中又可分成彼此独立的若干个类目。使用时可根据需要将这些“面”中的类目组合在一起形成一个复合类目。示例服装的分类可采用面分类法选服装所用材料、男女式样、服装款式作为三个“面”每个“面”又可分成若干个类目见表表材料}男女式样一月装款式一纯棉纯毛中长纤维男式女式中山装西服猎装连衣裙使用时将有关类目组配起来。如纯毛男式中山装中长纤维女式西服⋯⋯等。要求a)根据需要选择分类对象本质的属性或特征作为分类对象的各个“面”b)不同“面”内的类目不应相互交叉也不能重复出现c)每个“面”有严格的固定位置d)“面”的选择以及位置的确定根据实际需要而定混合分类法混合分类法是将线分类法和面分类法组合使用以其中一种分类法为主另一种做补充的信息分类方法了信息编码的基本原则了唯一性在一个分类编码标准中每一个编码对象仅应有一个代码一个代码只唯一表示一个编码对象了合理性代码结构应与分类体系相适应。了可扩充性代码应留有适当的后备容量以便适应不断扩充的需要。简明性代码结构应尽量简单长度尽量短以便节省机器存储空间和减少代码的差错率适用性代码应尽可能反映编码对象的特点适用于不同的相关应用领域支持系统集成了规范性GB'r在一个信息分类编码标准中代码的类型代码的结构以及代码的编写格式应当统一。信息编码的基本方法门通则编码方法应以预定的应用需求和编码对象的性质为基础选择适当的代码结构。在决定代码结构的过程中既要考虑各种代码的编码规则又要考虑各种代码的优缺点(参见附录A)还要分析代码的一般性特征选取合适的代码表现形式研究代码设计所涉及的各种因素避免潜在的不良后果。代码类型图根据代码的含义性(参见条)给出了各种常用代码的类型。图顺序码规则…从一个有序的字符集合中顺序地取出字符分配给各个编码对象。这些字符通常是自然数的整数如以“”打头也可以是字母字符如:AAA,AAB,AACo应用顺序码一般作为以标识或参照为目的的独立代码来使用或者作为复合代码的一部分来使用后一种情况经常附加着分类代码。在码位固定的数字字段中应使用零填满字段的位数直到满足码位的要求示例:在位数字字段中数字编码为。而数字编码为。类型顺序码有三种类型:递增顺序码、分组顺序码、约定顺序码。门递增顺序码编码对象被赋予的代码值可由预定数字递增决定。例如预定数字可以是(纯递增型)或者是(只有的倍数可以赋值)或者是其他数字(如:偶数情况下的)等等。用这种方法代码值不带有任何含义。相类似的编码对象的代码值不作分组。为了以后原始代码集的修改可能需要使用中间的代码值这些中间代码值的赋值根据不必按递增。示例GBT((世界各国和地区名称代码》中部分国家和地区的数字代码(见表),GB'r表招*#AALRlSAMOA一一一下该标准中后来增加的地区名称南极洲(ANTARCTICA)使用了中间代码值。,属于对原始代码集的增补。系列顺序码这种代码首先要确定编码对象的类别按各个类别确定它们的代码取值范围然后在各类别代码取值范围内对编码对象顺序地赋予代码值。示例:GBT《中央党政机关、人民团体及其他机构代码》就采用了三位数字的系列顺序码。表示全国人大、全国政协、高检、高法机构^表示中央直属机关及直属事业单位^夫示围各阵各部季^表全国性人民团体、民主党派机关系列顺序码只有在类别稳定并且每一具体编码对象在目前或可预见的将来不可能属于不同类别的条件下才能使用。约定顺序码约定顺序码不是一种纯顺序码。这种代码只能在全部编码对象都预先知道并且编码对象集合将不会扩展的条件下才能顺利使用。在赋予代码值之前编码对象应按某些特性进行排列例如:依名称的字母顺序排序按(事件、活动的)年代顺序排序等。这样得到的顺序再用代码值表达而这些代码值本身也应是从有序的列表中顺序选出的示例:按英文字母顺序排列的数值化字母顺序码(见表)表代码名称Apples(苹果)Bananas(香蕉)Cherries(樱桃)Dates枣)无序码规则无序码是将无序的自然数或字母赋予编码对象。此种代码无任何编写规律是靠机器的随机程序编写的应用无序码既可用作编码对象的自身标识又可作为复合代码的组成部分(复合代码的其他部分则以其他编码规则为基础)。GB'r缩写码规则这种代码的本质特性是依据统一的方法缩写编码对象的名称由取自编码对象名称中的一个或多个字符赋值成编码表示应用缩写码能有效用于那些相当稳定的、并且编码对象的名称在用户环境中已是人所共知的有限标识代码集。示例:GBT((世界各国和地区名称代码》中部分国家的字母代码见表e表国家名称代码奥地利AUSTR工A加拿大CANADA中国CHINA法国FRANCE美国UNITEDSTATESATCACNFRUS层次码规则层次码以编码对象集合中的层级分类为基础将编码对象编码成为连续且递增的组(类)。位于较高层级上的每一个组(类)都包含并且只能包含它下面较低层级全部的组(类)。这种代码类型以每个层级上编码对象特性之间的差异为编码基础。每个层级上特性必须互不相容。细分至较低层级的层次码实际上是较高层级代码段和较低层级代码段的复合代码。层次码的一般结构如图所示:xxxxxx第三层代码第二层代码第一层代码图应用层次码通常用于分类的目的。层级数目的建立依赖于信息管理的需求。层次码较少用于标识和参照的目的。层次码非常适合于诸如统计目的、报告货物运转、基于学科的出版分类等情况。在实践中既有固定格式也有可变格式。固定格式比可变格式更容易处理一些。示例:固定递增格式。GBT《学科分类与代码》中学科代码格式由个数字位组成下一级学科相对于上一级学科按固定的位代码段递增其部分代码见表表代码}学科名称·们数学数理逻辑与数学基础演绎逻辑学示例:可变递增格式。在通用十进制分类法(UDC)中字符的数目和编码表达式的分段是可变的其细节描述的程度能被延伸到想要达到的层级。“建筑学的屋顶坡度”这样一个概念可被编码表达式表达成GB'r土木工程建筑物成分屋顶屋顶用材料屋顶坡度矩阵码规则矩阵码以复式记录表的实体为基础。赋予这个表中行和列的值用于构成表内相关坐标上编码对象的代码表示。这种方法的目的是对矩阵表中的编码对象赋予有含义的代码值这些编码对象在不同的组合中具有若于共同特性。应用矩阵码可有效地用于标识那些具有良好结构和稳定特性的编码对象示例:GB《信息交换用汉字编码字符集基本集》根据矩阵码编码方法对汉字信息交换)IJ的基本图形字符编制了区位码其中区号为矩阵表中的行号位号为矩阵表中的列号。汉字字符’’啊”用区位码编码表示在这里为区号为位号同理拉丁字符‘`A”用区位码编码表示图形字符“⋯”用区位码编码表示。并置码门规则并置码是由一些代码段组成的复合代码这些代码段提供了描绘编码对象的特性。这些特性是相互独立的。这种方法的编码表达式可以是任意类型(顺序码、缩写码、无序码)的组合。应用并置码非常适用于那些具有若干共同特性的商品分类应用代码段是要作出描绘性编码(何种产品、何时何地生产)或者是用作开发制造业方面的成组技术方法示例:轨道编码。xxxxxxxx等级形状尺寸等级、形状和尺寸这三个特性在很大程度上是相互独立的组合码门规则组合码也是由一些代码段组成的复合代码这些代码段提供了编码对象的不同特性与并置码不同的是这些特性相互依赖并且通常具有层次关联。应用组合码经常被用于标识目的以覆盖宽泛的应用领域示例:GB《公民身份号码》公民身份号码含义xxxxxxxxxxxx又xxxxxxxxxxxXxxxxxxxXxxx公民身份号码的t位组合码结构行政区划代码出生日期顺序号其中奇数表示男性偶数表示女性校验码整个位组合码共分段前两个代码段标识了编码对象(公民)的空间和时间特性第三个代码段则依赖于前两个代码段所限定的范围第四个代码段依赖于前三个代码段赋值后的校验计算结果代码特征GB'r概述代码的一般性特征除第章“信息编码的基本原则”所论述的唯一性、合理性、可扩充性、简明性、适用性以外还包括:稳定性、含义性、代码长度、结构与格式、容量等特征稳定性当代码为设计的变化留有余地而不必修改其结构时代码就是稳定的用户需要稳定的代码代码值的赋值必须考虑相对于代码值自身以及代码结构作偶然修改的最小可能性。当某个代码元素从代码元素集合中撤销时原编码表示不应再为其他编码对象所用含义性如果代码的编码表达式直接(例如缩写码)表达或间接根据一个或多个表(例如层次码、矩阵码、并置码)来表达它们的含意则代码就被认为是有含义的。在使用编码表达式时有含义也与根据编码对象特性进行的归类和分组〔类)有关。在以分类为目的情况下有含义是尤其重要的。对于以标识和参照为目的者宜用无含义代码代码长度代码长度是指编码表达式位置的数目。代码长度可被规定成固定的或可变的字符数目。注:可变的代码长度有两条主要缺欠:其一是当存储代码值的数据字段所容纳的字符数比使用的代码值字符数多时字符数目的不可预知会产生排列对齐问题。其二是由于字符冗余或增加引起的错误不能被人工或机器容易地检测出来。因此代码长度宜使用固定的字符数目。结构与格式代码结构定义包括:构成编码表达式的位置或位置组的数目以及每一位置上有效字符的集合。其中空格可以作为结构的组成部分。检查语法错误的输人确认主要与结构相关就各个位置组来说编码表达式的每个位置都可以这样定义其格式字母的、数字的、字母数字的、特殊字符的。容f容量是指编码表达式的数量它是在选定的基数范围内由每个位置上全部可用的字符组合构成的。示例<(C表示容量)a)对于位置数目是基数是使用二进制字符:C=b)对于位置数目是基数是使用十进制数字字符:C=c)对于位置数目是基数是使用字母字符:C理论容量以全部字符的所有组合都得到使用为前提。由于实践或理论原因造成的初始限制减少了这些理论容量。实际上容量的抉择是在以下各因素之间折衷的结果:a)对扩充系统的预见b)组成代码表达式的字符数目的限制c)书写和使用代码表达式的容易程度d)系统的期望使用寿命e)操作代价等等代码表现形式数字格式代码数字格式代码是用一个或若干个阿拉伯数字表示编码对象的代码简称为数字码。数字码的特点是结构简单使用方便排序容易并且易于国内、外推广但是对编码对象特征描述不直观。在数字格式代码值赋值时不宜使用全部是。或全部是的值如"”和“"。这些值应当保留用于特殊情形。GBT字母格式代码字母格式代码是用一个或多个拉丁字母表示编码对象的代码简称为字母码。字母码的特点。其一是容量大如用二位拉丁字母代码最多可表示(')个类目而二位数字代码最多只可表示()个类目。其二是字母码有时可提供便于人们识别的信息。如在GBT。中BJ表示北京TJ表示天津字母码便于人们记忆但不便于机器处理信息特别是当编码对象数目较多或添加、更改频繁以及编码对象名称较长时常常会出现重复和冲突的现象。因此字母码常用于编码对象较少的情况。为字母格式代码赋值时应注意:a)无含义字母码应当避免采用那些在发音时可能引起混淆的字符(听觉上的相似性)例如:字母B,D,G,P和T或者字母M和N,b)在字母代码中或者在代码的一部分有个或更多的连续字母字符时要避免使用元音字母(A,E,I,O和U)以免无意间形成易被误认的简单语言单词。c)在同一编码方案中字母代码宜使用单一形式的大写或小写字母而不宜大小写字母混用。混合格式代码混合格式代码是由数字、字母组成的代码或由数字、字母、特殊字符组成的代码。可以简称为字母数字码或数字字母码。混合格式代码的特点是基本兼有了数字型代码、字母型代码的优点结构严密具有良好的直观性同时又有使用上的习惯。但是由于代码组成格式复杂也带来了一定的缺点即计算机输人不方便录人效率低错误率增高不便于机器处理。特殊字符特殊字符(如:,G,)可以用于数字与字母混合格式代码中以补充字母系统的字符用这种方法容量得到增加并且可以为特殊处理保留语种字符的有效字符。在代码结构中应使用常用的字符并且应避免那些非字母或数字的字符(例如:连字符、句号、间隔、星号等等)只是在分隔代码段时才可以使用连字符或空格。用于规定代码系统的词表应当只含有尽可能少的字符种类下列字符应避免使用:a)不属于GBT七位编码字符集的字符。b)可能引起曲解或不正确转录的字符。例如:应注意排除空格"ABC'应写成“ABC"因为空格没有含义并民空格在转录时可能被忽略。c)对于数据交换来说在语法结构中可被当作服务性字符使用的那些字符。例如:冒号(:)、加号()、问号()、星号()、撇号(C)在GBT标准中是被当作服务字符使用的应避免使用这类字符。代码格式规则代码值的格式(或字符结构)最好采用全数字或全字母格式。只有在特殊位置上(例如:首位或末位)始终要用字母或数字格式时才能使用字母数字混合格式而随机的字母数字格式则不宜使用。在不存在助记特性的情况下人工记录数字格式的代码值通常比记录字母格式或混合格式的代码值要更加可靠些。受控的混合格式代码值(例如:在确定的位置上永远采用字母格式或者永远采用数字格式)比随机的混合格式代码值更加可靠些。例如:AA(前两位字符永远采用字母格式后三位字符永远采用数字格式)就比字母或数字有可能出现在任意位置上的情形具有更加可靠的格式。在混合格式中同类的字符类型应当作分组处理并且不要分散于代码表达式的各个位置上。例如:在三位字符代码中“字母一字母一数字”的结构(如:HW)就比“字母一数字一字母”这样的顺序(如:HW)所发生错误的要少很多当需要使用字母数字混合代码结构时应当避免那些容易理解成其他字符或者容易同其他字符相GB'r混淆的字符。例如:字母工与数字、字母与数字。、字母Z与数字、字母G与数字、字母B和S与数字以及字母与Q。为了避免对照排序时互不相容任何特定字符的位置上应当要么只用字母要么只用数字。编码表达式的显示对于手工处理宜优先采用人工易读的编码显示方式。在这种情况下代码值将以拉丁字母和阿拉伯数字方式出现。这种表达方式也常用于计算机输出的纸质文件和表册当中当需要采用机械或电子方式进行处理时应采用易于自动识别的编码显示方式。其中以若干个条排列编码成符号表示的条码编码方法得到了)’‘泛使用此外其他自动化标识方法如光学字符识读(OCR)设备或磁条、集成电路的智能卡等在实践中也已得到了使用代码设计概述代码设计过程中应注意那些常常可能造成彼此相互冲突的要求。例如:如果一种代码结构对于未来的需要有充足的扩充能力那么它就会在某种程度上牺牲其简明性。因此每个方面的问题都必须考虑周全制定折衷办法以达到相关应用领域获得最佳效率。代码分组和分段应当根据用户对信息的需求作格式安排要考虑在准确性和完备性方面进行查看的最大限度宽松性以及数据内容的紧凑性。现有代码的使用宜使用现有的代码。如果不是绝对需要就不必设计新的代码。代码含义在使用恰当时有含义代码为附加信息提供了一个基础并且在人工使用方面比无含义代码更加容易、更为可靠些。然而在有含义代码的开发过程中应当谨慎以确保有含义的部分与稳定的实体相关联。例如当地点的改变将会引起代码的改变时某个组织的有含义代码就不宜与地点相关联无含义代码宜用于大多数标识目的以及所有的参照目的。代码字符数目的确定代码值应当由最少的字符数目组成以节省空间并减少数据通信时间但同时还应根据代码用户的能力进行优化固定长度代码(例如:只采用气位字符而不是一位、二位和三位字符同时混用)在使用上比叮变长度代码更加可靠且更加容易。为了记录的可靠性多于位字母字符或位数字字符的代码值宜分解成较小的代码段例如:XXXXXX一XXXX就比XXXXXXXXXX更为可靠。在不必对已有代码元素重新编码或者扩大编码表达式格式的前提下代码结构应当能为代码集合增添新的代码元素提供支持代码段的分隔如果位置或代码段是完全相互独立并且能够独自成立(即:对于它们的含义来说不需要其他的代码)代码段应能被连字符(当需要显示时)所隔离。代码的位置顺序如果一个编码方案把一个完整实体集分成比较小的分组那么高阶位置应当是显著的、全面的分类低阶位置应当最具选择性和差别性(包括后缀)。一个例子就是GBT规定的日期数字表达式(YYYYMMDD)。如果一个复合代码被设计成由两个或更多的独立代码段组成则出现在高阶位置上特有的代码段应当是基于惯用要求和处理效率来考虑的。代码命名代码或其各个所有独立的代码段都必须有自己的标准化的、唯一的、与应用标志相适应的命名。B代码容最计算(〕GBT在计算涵盖全部位置的给定代码容量并且要保持代码唯一性时应使用下列公式(假定使用个字母字符和个数值数字因为要避免使用字母I和O可能引起的混淆):C=a·"式中:C全部可能的有效代码组合数即容量A代码中字母位置的数目N代码中数字位置的数目。(在组合的情况下AN等于代码的全部位置数目)。注:上面的公式似定给定的位置要么是字母的要么是数字的但决不是二者都适用如果特定的位置允许字母字符和数字字符二者都适用则公式变成为:C=^·^·'或C="·,·'(当字母I和O被禁用时)式中M为代码中字母字符和数字字符二者都适用的位置数目ANM等于代码的全部位置数目。在计算容量时不应考虑校验码所占的位置。校验码为了避免抄录和键人过程中的错误当代码较长时应考虑设置校验码。校验码由构成编码表达式的字符经过一定的算术运算而得到它可以检测出以下类型的错误:a)单替代错误:一个单一字符被另一个单一字符替换b)单一对换错误:单个字符的对换相邻的((d=)两个字符或相隔一个字符的((d=)两个字符之间的互换错误c)双替代错误:在同一个编码表达式中两个分隔的单一字符的替换错误d)位移错误:编码表达式整体向左或向右的位移e)其他错误。参见GBT,代码赋值约定赋码规则赋码规则应叙述清晰并且具有一致的适用性。例如:一个助记缩写词可以通过从编码条目的名称中删除全部元音而形成象“日期(date)”编码为DT或“绿色(green)”编码为GRN也可以用构成元素的各个单词的第一个字母编码而成象“文件结束((EndofFile)”编码为EOFe定异数据数量或货币数额不宜赋码。例如:当数量^能被编码为A,被编码为B时就会失去统计价值因为一旦数字被编码就不能得到真实的数字了。分类可以放在数据处理靠后的阶段进行而不是放在输人数据预先编码的过程中进行。“自然”数据的使用假如具体的数据以其自然形态(例如:具体的百分比数量)就已经是适当并且够用的话那么就不宜再为其开发代码结构收容类的使用应注意辨别代码的类别是“混杂”类或是“其他”类不宜在这样的类别中放置那些实际上是属于另外一个具体类别的实体代码元素。GsT附录A(资料性附录)各种信息分类编码方法的优缺点A}信息分类方法优缺点信息分类方法优缺点见表A表A分类方法优点缺点线分类法层次性好能较好地反映类目之间的逻辑关系实用方便既符合手工处理信息的传统习惯又便于电子计算机处理信息结构弹性较差分类结构一经确定不易改动效率较低当分类层次较多时代码位数较长影响数据处理的速度面分类法具有较大的弹性一个“面”内类目的改变不会影响其他的“面”一一适应性强可根据需要组成任何类目同时也便于机器处理信息易于添加和修改类目不能充分利用容量可组配的类目很多但有时实际应用的类目不多难于手工处理信息A各种类型代码编码方法优缺点各种类型代码编码方法优缺点见表A。表A代码类型优点缺点递增顺序码能快速赋予代码值简明一编码表达式容易确认编码对象的分类或分组不能由编码表达式来决定不能充分利用最大容量系列顺序码能快速赋予代码值简明编码表达式容易确认一不能充分利用最大容量约定顺序码能快速赋予代码值简明编码表达式容易确认一不能充分利用最大容量一不能适应于将来可能的进一步扩展无序码容易并且快速赋予代码值或许还是白动化的简明可利用最大容量一编码对象的分类或分组不能依据编码表达式显示出来如果要排除号码的复制需要用某种预先设定的表或运算法则产生随机数缩写码用户容易记忆代码值从而避免频繁查阅代码表可以压缩冗长的数据长度一一编码依赖编码对象的初始表达(语言、度量系统等等)方法在每次增加代码值之后如果不重新检查全部的代码值则缩写过程的结果就不能保证代码值的唯一性GsT表A(续)代码类型优点缺点层次码易于编码对象的分类或分组一一

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/17

GB 72-002 信息分类和编码的基本原则与方法

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利