|
网站SEO优化之Google分(fèn)词法(fǎ) |
|
Google分(fèn)词(cí)算法值得(dé)我们好好研(yán)究(jiū)一下。Google的搜索结果页(SERP)与(yǔ)搜(sōu)索关(guān)键字的相关(guān)性,明显(xiǎn)大于百度,这(zhè)是因为Google把搜索关键字都拆分(fèn)成最(zuì)基本(běn)的词(cí)组和单字(zì)后(hòu),在根据相关性去匹配数据库的中内容,而(ér)且Google拆分后的最基本词组,完全是根据词典(diǎn)里的词(cí)组(zǔ)匹(pǐ)配(pèi)的(de),也是说它符合(hé)国家语言文字工作委员(yuán)会的(de)规范和标准(zhǔn)的,这只限于普通词组(公众人名、著(zhe)名品牌名)。
实例(lì)1:测试Google是否有专(zhuān)业名词库
在Google搜索“搜索引擎关键字(zì)”,Google会把这个关键字短语拆分为“搜索—引(yǐn)擎(qíng)—关键—字”,这是(shì)因为(wéi)“搜索引擎”和“关键字(zì)”都是网络专业词(cí)组,可能Google没有专业词组库,所(suǒ)以就被拆分成了“搜索—引擎—关键—字”。
实(shí)例2:测试Google拆(chāi)分长(zhǎng)关键(jiàn)字
在Google搜索“他舅(jiù)WAP流量统计分析”,Google把这个关键字短语拆分为“他(tā)—舅(jiù)—wap—流量—统(tǒng)计—分析”六部分,“WAP”是一个(gè)英文(wén)词组,包括(kuò)Google和其(qí)他搜索引擎一(yī)般是(shì)不拆分英文词组的(就算它不是英文单(dān)词),“流量”、“统计”、“分析”都是(shì)符合国家语言规范的标准词(cí)组(zǔ),“他(tā)舅”只(zhī)是中国(guó)老百姓一个(gè)口头称谓用(yòng)语,不符合国家语言规范,在词典中根本就查不到这,所以Google就把(bǎ)“他舅(jiù)”拆分成了两个单字。
实例3:测试品牌名(míng)是否被Google收录为词组
在Google搜索“海(hǎi)尔(ěr)冰箱”、“惠普电(diàn)脑”、“华为通讯”、“美的电器”,“五粮(liáng)液酒”,“夏利汽车”、“北京同仁堂”这七(qī)个都是著名的品牌,结果是“海(hǎi)尔”、“惠普”、“华为”、“五粮液”、“同仁堂”都是单独的词组(zǔ),没有被(bèi)拆分(fèn)为单(dān)字,“夏利”、“美的”这两个品牌(pái)却(què)被拆分成了单字。不(bú)是所有品牌都能被(bèi)Google作为一个词组收(shōu)录进品牌词(cí)库,Google有自己(jǐ)的收录标准的。
实例4:测试Google是否会(huì)拆分成(chéng)语
下面(miàn)我们搜索一下韩乔生的经典(diǎn)名(míng)句“迅(xùn)雷不及掩耳之(zhī)势”和“山清水(shuǐ)秀丽”,结果(guǒ)“迅雷不及掩耳之势”这个短(duǎn)句被(bèi)拆分成(chéng)了“迅(xùn)雷(léi)—不及—掩耳(ěr)盗(dào)铃—之—势”,“迅雷”是一个符合汉语言规范的标准词组,不是指下载工具那个“迅雷”,“不(bú)及”也是(shì)一个词(cí)组,“掩(yǎn)耳(ěr)盗铃”也是符合国家语言规范的成语,“之势”不(bú)是标准词组(zǔ),所以(yǐ)就被拆分为两个单字。“山清水秀丽”被拆分为了(le)“山(shān)清水秀—丽”,“山清水秀(xiù)”是一个成语没有(yǒu)拆(chāi)分(fèn)。Google把成语作为几个(gè)基本词组,不会进一步拆分。
实例5:测试普通之间是(shì)否有权重高(gāo)低之分
搜索“山河水灾”这个(gè)关键字短(duǎn)语,结果Google拆分为“山河(hé)”和(hé)“水灾”两(liǎng)个词组;然后搜素“山(shān)河水灾情”这个关键(jiàn)字短(duǎn)语,结果Google拆分为“山河”、“水”、“灾情”三(sān)部分,“水”字没(méi)有和“灾(zāi)”组成词组,反而“灾”和“情(qíng)”组成了词组,这说“灾情”这个(gè)词的权(quán)重高于“水灾”的权重。这说明词组(zǔ)之间也是有权重之分的。
根据实例测试推断:Google会把搜索的(de)关(guān)键字(短(duǎn)语)拆分为最基本的词(cí)组,这些普通词组都是(shì)符合(hé)汉语言规范的标准词组,不像百度那样收录“人造名词”。Google的(de)词组大致可分(fèn)为普(pǔ)通名词、地(dì)名、人(rén)名等几类,关键(jiàn)字(短语)都是从(cóng)左向右(yòu),按权重高低拆分。这些词组权重从低到高(gāo)依次如下:人名<普通词组<地名(míng)<成语<领导人名字(zì)。进一步测试品牌名和(hé)人名的(de)权重是一样,都是(shì)最低的(de),这只是一个大(dà)致顺序,因为同一类词(cí)组还会根据(jù)日常使用的频率进一步的分级,每一级(jí)的分配不(bú)同的权重,所(suǒ)以同(tóng)一(yī)类词组之间也有(yǒu)权重高低之分。
|
|