一若自学网

谷歌算法

中文分词算法详细解读及SEO利用

2021年2月10日4谷歌算法
中文分词算法详细解读及SEO利用

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。

中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。

中文分词算法解读

中文分词的作用

中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

中文分词方法

1、字符串匹配的中文分词方法分为:正向最大匹配法、反向最大匹配法、最短路径分词法。

①、正向最大匹配法(由左到右的方向)

就是把一个词从左至右来分词。举个例子:“不知道你在说什么”,这句话采用正向最大匹配法是如何分的呢?分出来是:“不知道,你,在,说什么。”
1.从左到右将待切分句子的m个字符作为匹配字符,m为初始词典中最长词条的长度。
2.将字符与字典中元素进行匹配:
若匹配成功,则将这个字符作为一个词切分出来
若匹配不成功,则将这个字符的最后一个字去掉,再进行匹配,重复上述过程,知道切分完整个文本为止。
再举个例子吧:
假设我们要切分的句子为“南京市长江大桥”,字典中最长的元素长度为5,则先取待切分句子的前5个字符“南京市长江”。字典中没有元素与之匹配,长度减一,则变成“南京市长”,匹配成功。
对剩余三个字“江大桥”再次进行正向最大匹配,会切成“江”、“大桥”;
整个句子切分完成为:南京市长、江、大桥。

②、反向(逆向)最大匹配法(由右到左的方向)

看上面我举的例子“不知道你在说什么”用反向最大匹配法如何分。答案是:“不,知道,你在,说,什么。”这个就分得比较多了,反向最大匹配法就是从右至左来分词。
逆向最大匹配思想与正向最大匹配基本相同,不同的是将扫描方向变成了从右往左,匹配不成功时,去掉最左边的字符。
实验表明,逆向最大匹配算法效果要优于正向最大匹配算法。
“南京市长江大桥”的逆向最大匹配:
1.取出“南京市长江大桥”的后5个字“市长江大桥”,字典中无匹配元素,将字符“市”去掉,发现词典中有匹配,切割下来;
2.对剩余的“南京市”进行分词,整体结果为:南京市、长江大桥。

③、最短路径分词法(使每一句中切出的词数最小)

④、双向最大匹配法(进行由左到右、由右到左两次扫描)

这个怎么理解呢?就是对一段话切出最少的词数。还是用上面那句话“不知道你在说什么”举例,用最短路径分词法来分,就是把这句话分成最少的词。“不知道,你在,说什么”,这就是最短路径分词法,分出来后只有3个词。当然,上面三种可以相互结合组成一些分词方法。比如,正向最大匹配法和反向最大匹配法组合起来就可以叫作双向最大匹配法。
双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,从而决定正确的分词方法。
还是上面的例子,双向最大匹配的划分结果为:南京市长、南京市、长江大桥、江、大桥。
这类算法的优点是速度快,时间复杂度为O(n),实现简单;但是对于歧义和未登录词表现不佳。

2、词义分词法

这其实就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象进行分词。这种分词方法,现在还不成熟,处在测试阶段。

3、统计的分词方法

这个很简单,就是根据词组的统计,如果发现两个相邻的字出现的频率最多,那么这个词就很重要,就可以作为用户提供字符串中的分隔符。比如,“我的,你的,许多的,这里,这一,那里”等,这些词出现得比较多,就从这些词里面分开来。

这些分出来的词,把它们都作为你站点的主题页,导人链接权重上来了,竞争力就大了,因为这些页面把它内链起来。用锚链接,指向主页的目标关键词。这就是分词的好处。它能够提升目标关键词的排名的竞争力,同时给站点带来一定流量。一旦导人链接权重上来了,竞争力就大了,因为这些页面把它内链起来。

中文分词的难点

虽然分词算法相对比较成熟,但是在实际应用中很少用某一种方法得到比较好的效果,而是通过多种方法组合而得到一个相对比较好的结果。中文是一种十分复杂的语言,让计算机理解中文语言更是困难,分词算法还是有两大难题亟待解决。

1、歧义识别

歧义是指同一段文本,有两种或者多种切词方法。例如:结合成分子,因为“结合”和“合成”都是词,那么这个短语就可以分成“结合 成 分子”和“结 合成 分子”。这种称为交叉歧义。交叉歧义在中文分词中非常常见,由于没有人的知识去理解,计算机很难识别哪一种是正确答案。根据语义信息交叉歧义相对来说还是比较容易解决,还有一个歧义属于真歧义,所谓真歧义,就是指给出一段人也无法判断到底哪一种分词属于正确的分词,如“乒乓球拍卖完了”,可以分成“乒乓球 拍卖 完了” 和“乒乓 球拍 卖 完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

2、新词发现

新词又称为未登录词,即词典中没有出现过的词,常见的未登录词包括人名、机构名、地名、产品名、商标名、简称、省略语等,针对未登录词,因为时时刻刻都在产生新的,同时体量也十分庞大,没法收录到字典中。一般分词系统对会有专门的模块来处理未登录词,同时评价一个系统的好坏程度,对新词识别的准确率和召回都是重要度的评价指标。知乎专栏《新词发现》通过大量历史数据统计某个词是否是新词的方法介绍得很详细,方法也比较通用。它认为判断一个词是否是新词,主要从三方面来考虑,一、历史数据中出现的次数是不是足够多,二、新词的凝固度高,主要通过熵来衡量,通俗来说新词组成的字,需要经常一起出现,三、新词的自由度高,主要通过左右熵来衡量,一个新词的左邻字集合和右邻字集合有多随机,随机组合越多,越可能成为新词。

中文分词问题是绝大多数中文信息处理的基本问题,在搜索引擎、推荐系统(尤其是相关主题推荐和基于内容的过滤推荐)、大量文本自动分类等方面是一个关键部件。

中文分词技术原理与实战应用

关于搜索引擎优化,前面的课程我们对链接分析、站内权重分析等多维度的方向进行深度学习,大家可以翻看之前的文章。但是搜索引擎优化好比修炼,前者都是术,而术基本上都可以通用,而本节课程开始我们将用道(算法/思维)来捕捉搜索引擎的规律。很多人都说SEO算法改变了,其实算法一直在做调整。对于道而言,永远是悟性(思维)大于常规。SEO结果永远是万变不离其宗,如果我们掌控了搜索引擎的算法本质,那么对于任何站点的SEO优化就将变得越来越透彻,把控排名也将越来越轻松!

什么是中文分词,为什么需要中文分词?

答案:我们都知道对于用户本身而言,是具备意识来进行判断一个网页内容的可读性、通顺度等行为。但是对于搜索引擎本身来说它是不能像用户大脑一样去思考问题。而中文分词可以利用语义分析系统(类似人的大脑)来进行词汇分割,从组,定性等多维度拆解,从而让网页文档通过分词技术进行词汇归类,得到的最后网页多组词的频次,再利用倒排索引与TF-IDF算法与之计算,最终确定网页的核心主题(关键词)。

举例:在我们常见的语义模型中,大致分为三种类型的词,符号、中文、英文单词。由于国内搜索引擎多数情况下使用的是中文词汇,但是不少网页也存在大量的英文词汇,所以在考量分词结构的时候不仅仅是用来测试中文含义。而中文分词里面的词性有分为名词、形容词、动词、副词等词性,尽管我们作为用户可以一眼看出标题、描述、页面内容的含义,但是对于搜索引擎本身来讲是不具备这类“意识”,而语义分析是最好的一种模拟用户行为的方式。比如“漂亮_漂亮的含义_漂亮的意思”这个标题对于用户而言都知道是阐述漂亮,但是对于搜索引擎来说并不知道,而中文分词可以将页面的词隔离开来进行判断。这里的下划线可以作为分词符号,分词符号的最大作用是用于将一个词组合并成一个词,比如用户查询漂亮的含义,而标题中漂亮的含义通过分词符号可以让标题精准包含该关键词(关键词不间断)。再比如排行榜这个词语,本身就是一个词,不可能把排行和榜分开,但是如果采用了分词符号比如排行_榜,那么该标题就分为了两个关键词。分词符号的最大作用就是让关键词(词或词组)变成一个词,用于增强网页的唯一主题强调,从而增加该关键词在网页文档中的权重(强调)程度。

应用:我们在借助中文分词技术进行搜索引擎优化的时候强调三个原则,而这三个原则的把控是提升网页核心关键词权重的核心基石。

原则一:名词优先

首先我们简单的理解什么是名词,从词性来讲名词是通过概念性的描述一种人、事、物的名称。比如母亲、山药、意义等这类带有名称属性的词性叫做名词。而漂亮、矮小等这类词属于形容词,蹦跑、种菜这种则属于动词。而我们正常的词性来讲,名词是词性范围最广,词量最多的一种词。比如我们优化的产品词,业务词等绝大多数都是名词属性。从搜索引擎角度来说,名词的权重(重要程度)要大于其他属性。比如“我的母亲”,该标题母亲显然是核心词,而不是我或者得。

原则二:频次优先

之所以有频次优先原则,那是因为我们在强调一个主题的核心程度的同时也要思考该词在该网页当中的比重,比如“漂亮_漂亮的含义_漂亮的意思”,尽管漂亮是形容词,含义是名词,但是该标题的核心词绝对是漂亮而不是含义,因为频次大于词性。所以在频次相等的情况下,名词权重(重要程度)最高。频次不等的情况下,频次最高的关键词强调性最大。

原则三:分词符号优先

之所以才用到分词符号大多数是因为,我们很多时候优化的一个关键词并不是单一的词汇,而是通过多个词组合起来的词组。而词组里面可能不一定是名词,可能是名词+动词、名词+形容词等组合搭配的词汇。如果我们不间断的去写一个标题比如“我的语文老师很漂亮”,该标题我的、语文、老师均为名词,如果没有任何分词符号,该标题通过分词就是我的、语文、老师、很、漂亮。但是如果我们用【】将语文老师扩起来,那么该标题分词以后就是我的、语文老师、很、漂亮。分词符号的最大作用就是将网页的一个词组通过分词符号的替换来达到词组并归或词分离,从而增强网页核心关键词的主题强调作用。

语义分析系统:http://ictclas.nlpir.org/nlpir/

中文分词在SEO中的简单理解

比如我们作为一个用户看到一篇文章叫做我的母亲,对于用户而言,你最直观的感觉的就是该网页文章的核心关键词就是母亲,绝对不是我或者的,之所以有这种感觉那是因为所谓用户来思考,母亲是一个名词,我是代词,的是助词。但是对于搜索引擎本身来讲它是不可能像人的大脑一样思考这个意识来决定网页核心主题的,对于中国人来说,语义分析和词性则是搜索引擎利用区别网页核心关键词的主要方式,比如我们都知道中文有名词、形容词、动词、介词、副词等等。并且不同的词性他的含义和作用也完全不一样,那么搜索引擎如何借助词性来判断关键词的核心主题呢?

如果我们从大范围来讲,一个网页的主题包含的关键词不少,但是真正有价值的关键词其实就那么几个,并且这些有价值的词我们暂且称为核心关键词。从词性来看,多数这些有价值的词均为名词形态,如果不了解该词到底属于什么关键词词性可以通过语义分析系统去识别,也可以对照一下自己网站的关键词,核心词绝对是以名词为主。

一般来说,核心关键词定位多数都是名词+动词,或者名词+形容词,比如小黑在奔跑,该标题对于用户来说,都知道核心关键词是小黑,没了小黑奔跑就没有任何价值了。但是对于搜索引擎来说肯定不理解,从上面我们所讲到的分词原理,可以了解到该词的核心关键词也是小黑,因为小黑是名词,奔跑是动词,也叫做名+动。当然定位核心关键词的首要条件是必须是词性的频次相等的情况下才会优先将名词定位核心关键词,比如漂亮_漂亮同义词_漂亮的含义,虽然该标题里面漂亮是形容词,并且也包含了其他名词,但是为何核心词是漂亮而不是其他名词,因为频次相同才会将名词定位核心词,频次不相同优先将频次最大的关键词定位核心关键词。

中文分词对于SEO总结了3个要点

1、网页关键词通过标点符合进行分词处理,虽然这个板块大多数SEO人都知道操作,但是由于你符号用的越多,导致网页的分词越广,最终主题不集中。比如:SEO_SEO培训_SEO教程_SEO优化,这种就是分词大忌,看起来都是分了4个词,其实没有一个集中的,如果要最集中也就是SEO这个词了。

2、网页内容不管是更新新闻还是更新产品都要围绕标题的核心词去做,当然并不是要你去堆砌关键词,搜索引擎是有分词算法的,即使你网页体现培训这个词,搜索引擎也一样认为是关联性非常强的,不一定非得把SEO培训完全体现。

3、整个网页与标题要保持一定的词控分布,简单说就是可以借助百度指数的需求图谱来进行词的扩展,也算是满足了搜索引擎对于网页的一种相关性计算,这种相关性计算会直接计算网页质量打分在里面。虽然有很多垃圾网站页面没有任何相关性,百度一样给予很好的排名,但是仔细去看,这种操作排名非常难稳定,而往往相关性强的网页排名稳定性更高。

精智wordpress免费主题

专注、用心,做简洁实用的WordPress中文主题。

精智wordpress主题