MySQL全文搜索：5.7.6+版本实现中文多词模糊检索教程

日期：2024-12-14 19:28:30 作者：创始人浏览：0

mysql全文查找matchagainst模式怎样实现中文多词模糊

MySQL5.7.6之前，全文索引仅支持英文全文索引，不支持中文全文索引。
为了解决这个问题，首先要将中文文本进行分词，分解成单词，然后存储到数据库中。
MySQL5.7.6及更高版本内置了ngram全文解析器，支持中文、日文、韩文分词。
在本文中，我们将使用MySQL版本5.7.22和InnoDB数据库引擎。

全文索引的使用场景通常是搜索大量数据效率低下的时候，比如数据超过10万条或者在线人数太多时，类似的查询会使数据库崩溃。
全文索引可以按词对整篇文章进行预索引，大大提高查询效率，特别适合百万级数据检索。

如果您使用的是自制服务器，则应立即设置全文索引以充分利用此功能。
创建倒排索引时，一定要在语句中添加WITHPARSERngram，并尽量一次性为多个字段创建倒排索引，避免出现“倒排索引未找到”的问题。

MySQL原生的ngram解析器通过全局ngram_token_size变量配置n的大小。
取值范围为1到10，默认值为2。
通常设置为查询的最小字数。
如果需要查询单个单词，请将ngram_token_size设置为1。
ngram_token_size值越小，全文索引占用的空间越少。
但是当你运行查询时，最快的情况是恰好等于ngram_token_size的单词。

更改ngram_token_size值的方法是在my.ini文件中的[mysqld]下添加ngram_token_size=2或者在Linux系统的my.cnf文件中更改。
更改后，必须重新启动MySQL服务并重新建立倒排索引才能保证生效。

MySQL全文检索语句包括自然语言检索（INNATURALLANGUAGEMODE）、布尔检索（INBOOLEANMODE）、查询扩展检索（WITHQUERYEXPANSION）三种方式。
自然语言检索考虑所有可能的单词组合；布尔检索排除匹配过半行的单词，提高效率；查询扩展检索在特定条件下扩展查询结果。

搜索时，可以使用以下搜索方式：

INNATURALLANGUAGEMODE：查询所有包含多个单词的组合。
INBOOLEANMODE：使用布尔逻辑字符AND、OR、NOT、>、<、~和*的高级查询。

示例：

INBOOLEANMODE：“+apple-banana”表示应返回包含苹果但不包含香蕉的记录。
“melabanana”表示返回至少包含苹果或香蕉的记录。
“+applebanana”表示返回必须包含apple的记录，banana可以包含也可以不包含。
如果包含在内，将会获得更高的重量记录。
“+apple~banana”表示返回必须包含apple且包含banana的记录会减少权重。

全文搜索时应注意以下几点：

默认情况下，全文索引按照ID从高到低排序。
在收集爬虫数据时，可以使用全文索引来提高检索效率。

使用全文索引时，ngram_token_size等参数必须是适当配置以优化查询效率和性能。
通过正确配置和使用全文索引，可以大大提高数据检索的效率和效果。

like模糊匹配查询慢解决之道——MySQL全文索

需求：单词的模糊匹配查询。
选择三种查询方法：使用LOCATE、使用instr和使用like。
分析explain执行计划，发现索引无效。
原因：MySQLB+树形索引结构在模糊查询时会失败，特别是使用LIKE的通配符%时。
时间分析：查询耗时90ms。
随着数据量的增加，时间消耗也会不断增加。
解决方案：对于小数据量，使用MySQL全文索引；对于大量数据或者全文索引性能不理想，可以考虑使用Elasticsearch。
深入MySQL全文索引：1、创建全文索引时需要注意的事项，比如创建索引时的数据量、创建索引的时机等。
2、在建表时以及在已有表上添加全文索引的方法。
3.删除全文索引语法。
全文索引使用：自然语言模式和布尔模式的比较和应用，特别提到中文分词和N-gram解析器的使用。
中文分词问题：全文索引默认以空格作为分隔符，但中文需要分词处理；介绍N-gram解析器及其配置。
参数配置：解释一下`innodb_ft_min_token_size`和`innodb_ft_max_token_size`参数对全文索引的影响。
测试数据初始化：使用样本数据演示全文索引的结构以及倒排索引的使用方法。
实际应用：以包含“Chang”的查询为例，展示如何使用全文索引解决查询问题。
注意点总结：MySQL全文索引的几个关键考虑因素，包括字段一致性要求、关键字频率限制、特定字符处理、长度限制、引擎兼容性等。

MySQL之全文索引二三事

MySQL全文索引是一种用于快速搜索文本字符串的索引，可以提高文本搜索的效率。
与普通索引仅对列值进行排序不同，全文索引基于分词索引内容，支持模糊搜索、部分匹配、多词搜索。
创建全文索引需要指定索引名、表名、列名。
您可以选择使用WITHPARSER子句来指定解析器。
全文索引适用于CHAR、VARCHAR、TEXT、BLOB类型的字段。
MySQL5.6之前，仅支持MyISAM存储引擎。
5.6版本之后，InnoDB也支持了。
全文索引使用MATCHAGAINST语句来执行查询。
内置全文解析器使用特定分隔符（例如空格、逗号和句点）确定单词位置。
对于中文，您需要ngram或MeCab解析器插件。
ngram将文本序列标记为n个连续字符的序列。
n值在1到10之间。
设置为1支持搜索单个字符。
使用ngram创建全文索引并查询包含特定字符的记录。
将ngram_token_size设置为1可以支持查询单个汉字。
如果大于1，则对汉字进行拆分查找。
如果要查询包含“刘”和“雅”的记录，则必须将ngram_token_size设置为1。
查询结果仅包含匹配完整短语的文档。
MySQL全文搜索支持自然语言和布尔模式。
自然语言模式默认使用自然语言处理技术返回最相关的结果，并允许搜索条件的组合和对结果的更精确的控制。
全文索引比LIKE“%%”操作更有效，尤其是在处理大量数据时。
总结：MySQL利用全文索引来提高文本搜索效率。
通过创建全文索引并使用MATCHAGAINST查询，ngram解析器需要支持中文搜索。
全文检索模式包括自然语言和布尔模式，全文索引优于LIKE“%%”操作。
使用全文索引和优化性能是关键。

标签： MySQL全文索引 ngram解析器