文档规范化(normalization)
文档规范化,提高召回率
示例代码
#normalization GET _analyze { "text": "Mr. Ma is an excellent teacher", "analyzer": "english" }
字符过滤器(character filter)
分词之前的预处理,过滤无用字符
html标签过滤器
官方参考地址
HTML strip character filter | Elasticsearch Guide [8.11] | Elastic
示例代码
GET /_analyze { "tokenizer": "keyword", "char_filter": [ "html_strip" ], "text": "I'm so happy!
" }
字符映射过滤器(MappingCharFilter)
官方参考地址
Mapping character filter | Elasticsearch Guide [8.11] | Elastic
示例代码
PUT my_index { "settings": { "analysis": { "char_filter": { "my_char_filter":{ "type":"mapping", "mappings":[ "滚 => *", "垃 => *", "圾 => *" ] } }, "analyzer": { "my_analyzer":{ "tokenizer":"keyword", "char_filter":["my_char_filter"] } } } } } GET my_index/_analyze { "analyzer": "my_analyzer", "text": "你就是个垃圾!滚" }
正则过滤器
官方参考地址
Pattern replace character filter | Elasticsearch Guide [8.11] | Elastic
示例代码
PUT my_index { "settings": { "analysis": { "char_filter": { "my_char_filter":{ "type":"pattern_replace", "pattern":"(\d{3})\d{4}(\d{4})", "replacement":"****" } }, "analyzer": { "my_analyzer":{ "tokenizer":"keyword", "char_filter":["my_char_filter"] } } } } } GET my_index/_analyze { "analyzer": "my_analyzer", "text": "您的手机号是17611001200" }
令牌过滤器(token filter)
停用词、时态转换、大小写转换、同义词转换、语气词处理等。比如:has=>have him=>he apples=>apple
示例代码
#停用词 PUT /test_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "type": "standard", "stopwords":["me","you"] } } } } } GET test_index/_analyze { "analyzer": "my_analyzer", "text": ["Teacher me and you in the china"] }
分词器(tokenizer)
切词
官方参考地址
Tokenizer reference | Elasticsearch Guide [8.11] | Elastic
常见分词器
-
standard analyzer:默认分词器,中文支持的不理想,会逐字拆分。
-
pattern tokenizer:以正则匹配分隔符,把文本拆分成若干词项。
-
simple pattern tokenizer:以正则匹配词项,速度比pattern tokenizer快。
-
whitespace analyzer:以空白符分隔
-
ik分词器:中文分词器(git地址:GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.)
示例代码
#分词器 tokenizer POST _analyze { "analyzer": "ik_max_word", "text": "小孩儿不能吃糖" }
自定义分词器
-
char_filter:内置或自定义字符过滤器 。
-
token filter:内置或自定义token filter 。
-
tokenizer:内置或自定义分词器。
示例代码
PUT custom_analysis { "settings": { "analysis": { "char_filter": { "my_char_filter": { "type": "mapping", "mappings": [ "& => and", "| => or" ] }, "html_strip_char_filter":{ "type":"html_strip", "escaped_tags":["a"] } }, "filter": { "my_stopword": { "type": "stop", "stopwords": [ "is", "in", "the", "a", "at", "for" ] } }, "tokenizer": { "my_tokenizer": { "type": "pattern", "pattern": "[ ,.!?]" } }, "analyzer": { "my_analyzer":{ "type":"custom", "char_filter":["my_char_filter","html_strip_char_filter"], "filter":["my_stopword","lowercase"], "tokenizer":"my_tokenizer" } } } } } GET custom_analysis/_analyze { "analyzer": "my_analyzer", "text": ["What is ,as.df ss
in ? &
| is ! in the a at for "] }
猜你喜欢
- 17天前(零碳中国·绿色投资蓝皮书)中国"零碳"差旅之路暨"绿色低碳酒店"标准研究项目成果发布会召开
- 17天前(fender japan hybrid)Fender东京旗舰店盛大开幕在即,开售商品和店内服务提前揭晓
- 17天前(夏日旅行海报)夏日旅行|精简行囊 向快乐进发
- 17天前(新西兰航空官方网站)新西兰航空85周年焕新启航 全方位客舱升级,飞「悦」快意时光
- 17天前(071 圣安东尼奥)秋季 圣安东尼奥交出了私藏活动清单
- 17天前(苏梅岛普吉岛哪个好玩)苏梅岛金普顿基塔蕾度假酒店推出家庭度假套餐
- 17天前(澳涞坞是什么)从本土品牌到全球舞台:澳涞山庄获国际顶级产业资源加持
- 17天前(星级饭店的发展困境)星级饭店转型之路:从市场逻辑到行业实践的深度探索
- 17天前(冬日生活还没安排?上抖音一键打包北方花式过冬精彩)冬日生活还没安排?上抖音一键打包北方花式过冬精彩
- 17天前(海南航空现况怎样)用一场直播找到市场扩张新渠道,海南航空做对了什么?
网友评论
- 搜索
- 最新文章
- (2020广州车展哈弗)你的猛龙 独一无二 哈弗猛龙广州车展闪耀登场
- (哈弗新能源suv2019款)智能科技颠覆出行体验 哈弗重塑新能源越野SUV价值认知
- (2021款全新哈弗h5自动四驱报价)新哈弗H5再赴保障之旅,无惧冰雪护航哈弗全民电四驱挑战赛
- (海南航空现况怎样)用一场直播找到市场扩张新渠道,海南航空做对了什么?
- (visa jcb 日本)优惠面面俱到 JCB信用卡邀您畅玩日本冰雪季
- (第三届“堡里有年味·回村过大年”民俗花灯会活动)第三届“堡里有年味·回村过大年”民俗花灯会活动
- (展示非遗魅力 长安启源助力铜梁龙舞出征)展示非遗魅力 长安启源助力铜梁龙舞出征
- (阿斯塔纳航空公司)阿斯塔纳航空机队飞机数量增至50架
- (北京香港航班动态查询)香港快运航空北京大兴新航线今日首航
- (我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉)我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉
- 热门文章