下载
加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 CCL语料库及其检索系统

CCL语料库及其检索系统.doc

CCL语料库及其检索系统

身着华丽装的小丑
2018-04-05 0人阅读 举报 0 0 暂无简介

简介:本文档为《CCL语料库及其检索系统doc》,可适用于综合领域

CCL语料库及其检索系统一关于CCL语料库及其检索系统(如果时间紧张可直接跳到最后的举例部分~)CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。语料库中所含语料的基本内容信息可以在“高级搜索”页面上点击相应的链接查看。比如:“作者列表”:列出语料库中所包含的文件的作者“篇名列表”:列出语料库中所包含的篇目名“类型列表”:列出语料库中文章的分类信息“路径列表”:列出语料库中各文件在计算机中存放的目录“模式列表”:列出语料库中可以查询的模式语料库中的中文文本未经分词处理。检索系统以汉字为基本单位。主要功能特色:,支持复杂检索表达式(比如不相邻关键字查询指定距离查询等等),支持对标点符号的查询(比如查询“,”可以检索语料库中所有疑问句),支持在“结果集”中继续检索,用户可定制查询结果的显示方式(如左右长度排序等),用户可从网页上下载查询结果(text文件)二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。特殊符号查询表达式中可以使用的特殊符号包括个:|$#~!:这些符号分为四组:Operator:|Operator:$#~Operaotr:!equipmentrequirements,facilitatetheintroductionofcablesandductsoutdoorcabinets,makeappropriateraincoverfortheCabinetfixedthelegboltsshouldusetheoriginalCabinetelectricaldistributioncabinetsshouldbeweldedwithoutspecialinstructions,weldenclosurebottomcorners,withbaselengthinmmmm,weldingshouldbesolid,weldingintheweldingpartswithpreservativeselectricalpowerDelimiter::符号的含义如下:(一)Operator:Operator是二元操作符它的两边可以出现“基本项”(关于“基本项”的定义见)()|相当于逻辑中的“或”关系。(二)Operator:Operator是二元操作符它的两边可以出现“简单项”(关于“简单项”的定义见)()$表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number()#表示它两边的“简单项”出现于同一句中不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number()表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number()表示它左边的“简单项”出现于句子中并且在右边相隔Number个字的范围内号右边的“简单项”不出现。()~表示它左边的“简单项”出现于句子中并且在左边相隔Number个字的范围内~号右边的“简单项”不出现。(三)Operator:Operator是一元操作符。()!表示它后面的“简单项”是本次查询的主关键字符串显示查询结果时以该“简单项”作为中心来进行定位。注意:Operator后面的Number是必须的不能省略。Number=表示相邻,Number=表示间隔个单位其余依此类推。(四)Delimiter:西文冒号:是分隔符():跟在pathauthornametypepattern等关键字后面用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面)注意:上述特殊字符不能作为基本项在语料库中进行检索。pathauthor等关键字可以作为基本项进行检索。基本项指不包含特殊符号和空格的连续字符串equipmentrequirements,facilitatetheintroductionofcablesandductsoutdoorcabinets,makeappropriateraincoverfortheCabinetfixedthelegboltsshouldusetheoriginalCabinetelectricaldistributioncabinetsshouldbeweldedwithoutspecialinstructions,weldenclosurebottomcorners,withbaselengthinmmmm,weldingshouldbesolid,weldingintheweldingpartswithpreservativeselectricalpower简单项简单项可以由以下三种形式的序列组成()基本项()基本项Operator基本项Operator()(基本项Operator基本项Operator)注意:在实际表达式中Operator前后不能有空格复杂项复杂项可以由以下三种形式的序列组成()简单项()简单项OperatorNumber简单项简单项OperatorNumberOperator简单项()其中第二种形式等价于Operator简单项OperatorNumber简单项换句话说如果以第一个简单项作为查询结果的显示中心~可以省略。注意:Number为和正整数。OperatorOperator前后均不能有空格过滤项过滤项可以包含以下表达式:()author:简单项()name:简单项()path:简单项()type:简单项()pattern:简单项(“author:简单项”的含义是指“author:”后面跟的表达式是上面“简单项”所定义的字符串其余类推)注意:通过指定过滤项中author(作者)name(篇名)path(文件路径)type(文章类型)用户可以缩小查询语料的范围。equipmentrequirements,facilitatetheintroductionofcablesandductsoutdoorcabinets,makeappropriateraincoverfortheCabinetfixedthelegboltsshouldusetheoriginalCabinetelectricaldistributioncabinetsshouldbeweldedwithoutspecialinstructions,weldenclosurebottomcorners,withbaselengthinmmmm,weldingshouldbesolid,weldingintheweldingpartswithpreservativeselectricalpower其中过滤项pattern专门用于查询汉语中的各种模式比如“AABB”这样的重叠形式“AB不AB”这样的反复问形式等等。比如:想查询“老舍”的语料在查询表达式中输入“author:老舍”即可想查询唐代语料在查询表达式中输入“path:唐”即可(唐代语料均放在包含“唐”目录下)。想查询唐代语料中“给”的使用情况可以在查询表达式中输入“path:唐给”。(“path:唐”跟关键字“给”之间需有空格隔开)想查询“老舍”先生的文章中“A来A去”的用法在查询表达式中输入“author:老舍pattern:A来A去”即可。各过滤项的具体取值用户可以在“高级搜索”页面中查到(参见上文)。下面是古代汉语语料一级目录列表:周春秋战国西汉东汉六朝隋唐五代北宋南宋元明清民国笔记辞书大藏經道藏二十五史蒙学读物全宋词全唐诗全元曲equipmentrequirements,facilitatetheintroductionofcablesandductsoutdoorcabinets,makeappropriateraincoverfortheCabinetfixedthelegboltsshouldusetheoriginalCabinetelectricaldistributioncabinetsshouldbeweldedwithoutspecialinstructions,weldenclosurebottomcorners,withbaselengthinmmmm,weldingshouldbesolid,weldingintheweldingpartswithpreservativeselectricalpower十三经注疏诸子百家子句子句可以是以下两类表达式:()复杂项()过滤项查询表达式查询表达式可以是以下形式的序列:()子句()子句子句(子句和子句之间需要以空格隔开表示逻辑“AND”关系)三关于查询结果每次查询网页上最多列出条结果(分页列出每页条)。用户可以将查询所得结果保存到自己本地计算机的磁盘上。在查询结果显示网页上用户可以根据需要指定下载结果的条数(缺省为条)点击“下载”按钮查询结果即以txt文件形式保存到本地磁盘上。每句之后在【】内注明了该句的出处、作者、路径等信息。(如果条数较多文件会比较大下载速度缓慢请耐心等待不要重复提交下载请求)。查询结果以“句”为单位输出显示用户可以指定查询结果的显示长度(左右n个字范围)。小提示:如果想显示查询关键字所在的整句可以通过指定足够大的显示长度(比如)来实现。当用户指定的显示长度超过句长时以句长为限显示结果。关于查询结果的“标亮”和“定位”显示equipmentrequirements,facilitatetheintroductionofcablesandductsoutdoorcabinets,makeappropriateraincoverfortheCabinetfixedthelegboltsshouldusetheoriginalCabinetelectricaldistributioncabinetsshouldbeweldedwithoutspecialinstructions,weldenclosurebottomcorners,withbaselengthinmmmm,weldingshouldbesolid,weldingintheweldingpartswithpreservativeselectricalpower标亮词:在句子中以红颜色标出的词可以有多个中心词:是一个特殊的标亮词显示查询结果的每个句子时以“中心词”为网页中心位置对齐。小提示:()查询表达式中的“复杂项”和“过滤项”中的pattern项目都可以作为“标亮词”。这里“标亮词”是指跟“标亮词”匹配的句子片断。()默认的中心词是第一个“标亮词”即在用户没有用Operator指定“中心词”的情况下系统自动把第一个“标亮词”当作“中心词”。如果用户用Operator指定了“中心词”那么该词为用户指定的“中心词”。关于查询结果的“排序”用户可以指定按照“中心词”左边字符串排序或按照“中心词”右边字符串排序。排序方式为字符内码(GB码)降序。四在结果中查找对于复杂的查询要求可以尝试通过多次查询完成即利用“在结果中查找”功能逐次逼近检索目标。比如:您想查找“宁可„„也”的例句同时不希望“也”后面出现“不”这样的否定词。您可以先输入查询表达式“宁可$也”返回的结果是包含“宁可”和“也”且二者相隔字以内的句子然后您再输入查询表达式“也不”这样就可以把“也”后面字范围内有“不”的句子剔除掉了。五举例查询式例子:计算机硬件意思是:查出所有包含“计算机硬件”的句子。查询式例子:equipmentrequirements,facilitatetheintroductionofcablesandductsoutdoorcabinets,makeappropriateraincoverfortheCabinetfixedthelegboltsshouldusetheoriginalCabinetelectricaldistributioncabinetsshouldbeweldedwithoutspecialinstructions,weldenclosurebottomcorners,withbaselengthinmmmm,weldingshouldbesolid,weldingintheweldingpartswithpreservativeselectricalpower把被意思是:查出所有包含“把”同时也包含“被”的句子即两个关键字之间无次序限制无距离限制只需要在一句范围内。查询式例子:把|被意思是:查出含有“把”或“被”的句子两个关键字只需有一个在句中出现就作为查询结果输出。查询式例子:把不意思是:查出含有“把”但在“把”右边个字范围内不含“不”的句子。注意:号属于opertaor其后必须有数字且不能有空格。查询式例子:给~把意思是:查出含有“给”但在“给”左边个字范围内不含“把”的句子。注意:~号属于operator其后必须有数字且不能有空格。查询式例子:与其$不如意思是:查出同时含有“与其”和“不如”的句子并且“与其”在先“不如”在后出现间隔字以内。查询式例子:能力#大意思是:查出同时含有“能力”和“大”的句子且“能力”和“大”之间的间隔在个字之内二者的先后次序不受限制。查询式例子:吃亏equipmentrequirements,facilitatetheintroductionofcablesandductsoutdoorcabinets,makeappropriateraincoverfortheCabinetfixedthelegboltsshouldusetheoriginalCabinetelectricaldistributioncabinetsshouldbeweldedwithoutspecialinstructions,weldenclosurebottomcorners,withbaselengthinmmmm,weldingshouldbesolid,weldingintheweldingpartswithpreservativeselectricalpower意思是:查出同时含有“吃”和“亏”的句子并且“吃”在先“亏”在后出现二者之间刚好间隔个字。查询式例子:被$!给意思是:查出同时含有“被”和“给”的句子并且“被”在先“给”在后出现二者之间间隔个字以内。显示查询结果时以“给”为“中心词”即“给”居中对齐。查询式例子:(把|被)$给意思是:查出同时含有“把”和“给”的句子并且“把”在先“给”在后出现二者之间间隔个字以内。或者查出同时含有“被”和“给”的句子并且“被”在先“给”在后出现二者之间间隔个字以内。查询式例子:(把|被)$!给意思是:查出同时含有“把”和“给”的句子并且“把”在先“给”在后出现二者之间间隔个字以内。或者查出同时含有“被”和“给”的句子并且“被”在先“给”在后出现二者之间间隔个字以内。显示查询结果时以“给”为“中心词”即“给”居中对齐。查询式例子:了$(。|,||~)意思是:查出“了”与标点符号“。,~”等紧邻出现的句子。这实际上就部分地达到了查询“句尾了”(汉语学界一般所说的“了”)的目的。查询式例子:所以path:明|清意思是:在古代汉语语料中查“明代”和“清代”文献中“所以”的用例equipmentrequirements,facilitatetheintroductionofcablesandductsoutdoorcabinets,makeappropriateraincoverfortheCabinetfixedthelegboltsshouldusetheoriginalCabinetelectricaldistributioncabinetsshouldbeweldedwithoutspecialinstructions,weldenclosurebottomcorners,withbaselengthinmmmm,weldingshouldbesolid,weldingintheweldingpartswithpreservativeselectricalpower

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/12

CCL语料库及其检索系统

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利