语料库搜索引擎服务是国家语委 “十四五” 科研规划重点项目“面向大数据时代的中文语料库引擎”(项目编号:ZDI145-22)的研究成果。该搜索引擎支持语料库查询语言CQL,为用户提供了灵活且高效的语料检索和统计分析功能。
语料库搜索引擎服务是国家语委 “十四五” 科研规划重点项目“面向大数据时代的中文语料库引擎”(项目编号:ZDI145-22)的研究成果。该搜索引擎支持语料库查询语言CQL,为用户提供了灵活且高效的语料检索和统计分析功能。
类型 | 查询 | 说明 |
---|---|---|
单词查询 | [t="健康"] | 查找词语"健康" |
词性查询 | [pos="NOUN"] | 查找所有名词 |
复合查询 | [t="健康" & pos="NOUN"] | 查找所有作为名词使用的"健康" |
序列匹配 | [pos="ADJ"] [pos="NOUN"]{2} | 查找一个形容词后面跟两个名词的序列 |
位置匹配 | [#0 & t="中国"] | 查找第 0 个词为"中国"的文档 |
逻辑关系 | [t="北京"] | [t="上海"] | 匹配单词"北京"或"上海" |
逻辑关系 | [t="健康" & pos="ADJ"] | 匹配所有作为形容词的"健康" |
逻辑关系 | [!t="中国"] | 匹配所有除"中国"之外的单词。 |
包含关系查询 | <s/> containing ([t="中国"]) | 匹配所有包含"中国"的句子,其中 <s/> 表示句子的 XML 标签 |
位置关系查询 | [t="中国"] followedby [pos="VERB"] | 匹配后续词项为动词的"中国" |
位置关系查询 | [pos="NOUN"] precededby [t="的"] | 匹配所有前面有"的"的名词 |
频率统计 | [pos="VERB"] [pos="NOUN"] | 统计匹配这一序列模式的不同实例的出现频次,并按频次降序排列 |
上下文统计 | [pos="VERB"] [pos="NOUN"] | 统计这一序列模式结构的上下文中出现的词 |
POS | 中文词性名称 | 解释 | 案例 |
---|---|---|---|
ADJ | 形容词 | 描述事物的性质或特征 | 美丽的 |
ADP | 介词 | 在句子中引导宾语 | 在 |
ADV | 副词 | 修改动词、形容词等,表程度或方式 | 非常 |
AUX | 助动词 | 与主动词搭配,形成时态、语态等 | 被 |
CCONJ | 并列连词 | 连接两个相等的结构 | 和 |
DET | 限定词 | 修饰名词,给出信息量 | 这 |
INTJ | 感叹词 | 表达情感或反应 | 哎 |
NOUN | 名词 | 人、地点或事物的名称 | 猫 |
NUM | 数词 | 表示数量或序号 | 三 |
PART | 助词 | 对句子中的其他成分进行修饰或限制 | 的 |
PRON | 代词 | 代替名词 | 他 |
PROPN | 专有名词 | 特定的人名、地名等 | 北京 |
PUNCT | 标点符号 | 句子的停顿和语调 | , |
SCONJ | 从属连词 | 引导从句 | 如果 |
SYM | 符号 | 用于表达数学或货币等符号 | $ |
VERB | 动词 | 表示动作或状态 | 跑 |
X | 其他 | 难以归类的其他词 | 啊哈 |