关于百度中文分词

news/2024/7/10 3:30:44 标签: 百度, 搜索引擎, 优化, 引擎, 扩展, 语言

了解引擎>搜索引擎分词技术对于我们的SEO工作有着重大的意义,不管是我们的关键词布局还是链接架构,都跟分词有莫大的关联。这里萧涵给大家谈下一百度的中文分词(当然也不局限于百度,其他引擎>搜索引擎也是差不多的)。本文分两个部分,首先是摘取已有的关于分词的解释,另外再加入我自己对分词的扩展思路。

什么是中文分词?

我们都知道,英文句子都是由一个一个单词按空格分开组成,所以在分词方面就方便多了,但我们中文是一个一个汉字连接而成,所以相对来说是比较复杂的。中文分词指的是将一个汉语句子切分成一个一个单独的词,按照一定的规则重新组合成词序列的过程。这个也称做“中文切词”。

分词对于引擎>搜索引擎有着很大的作用,是文本挖掘的基础,可以帮助程序自动识别语句的含义,以达到搜索结果的高度匹配,分词的质量直接影响了搜索结果的精确度。目前引擎>搜索引擎分词的方法主要通过字典匹配和统计学两种方法。

一、基于字典匹配的分词方法

这种方法首先得有一个超大的字典,也就是分词索引库,然后按照一定的规则将待分词的字符串与分词库中的词进行匹配,若找到某个词语,则匹配成功,这种匹配有分以下四种方式:

  1. 1、正向最大匹配法(由左到右的方向);
  2. 2、逆向最大匹配法(由右到左的方向);
  3. 3、最少切分(使每一句中切出的词数最小);
  4. 4、双向最大匹配法(进行由左到右、由右到左两次扫描)

通常,引擎>搜索引擎会采用多种方式组合使用。但这种方式也同样给引擎>搜索引擎带来了难道,比如对于歧义的处理(关键是我们汉语的博大精深啊),为了提高匹配的准确率,引擎>搜索引擎还会模拟人对句子的理解,达到识别词语的效果。基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息,当然我们的引擎>搜索引擎也在不断进步。

二、基于统计的分词方法

虽然分词字典解决了很多问题,但还是远远不够的,引擎>搜索引擎还要具备不断的发现新的词语的能力,通过计算词语相邻出现的概率来确定是否是一个单独的词语。所以,掌握的上下文越多,对句子的理解就越准确,分词也越精确。举个例子说,“引擎>搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“引擎>搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库。关于这点我在《关于电商与圈的分词测试》就是同样的一个例子。

中文分词的应用

分词准确性对引擎>搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于引擎>搜索引擎来说也是不可用的,因为引擎>搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响引擎>搜索引擎内容更新的速度。因此对于引擎>搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。

对于我们SEO从业者来说,分词的原理和方法是必须要掌握的,这样才能够将我们的网站设计得让引擎>搜索引擎容易确定它的主题相关性。比如我们的网站是关于SEO培训的,当用户在搜索这个词语的时候,引擎>搜索引擎首先会对其进行分词,比如分为“SEO”和“培训”,然后在索引库中进行分别匹配。这里还涉及到一点,也是我自己的总结,每个词语分词后有一个主词和副词,通常是优先匹配主词,然后再匹配副词,比如这里显然SEO是主词,所以优先去匹配这个词语,然后是培训这个副词。那么, 我们的网站应该如何去布局和架构,留给大家去思考。

 

http://www.xiaohan86.com/2011061149.html


http://www.niftyadmin.cn/n/1535735.html

相关文章

Android开发笔记(3)——GridLayout

笔记链接:http://www.cnblogs.com/igoslly/p/6799939.html GirdLayout 计算器实例及详尽的笔记:http://www.cnblogs.com/skywang12345/p/3154150.html 网格布局:使容器中的各组件呈M行N列的网格状分布。 和Relative Layout\Linear Layout相同…

ethereal 无法找到网卡问题(no interface )

这两天想把windows中的sniffer在linux中用起来,在网络上找了一下,发现各方对ethereal的评价较高,就装了.我是用source安装的,在安装的过程中只出现一个问题,是依赖包,应该是libpcap.*(不是很清楚了)&#x…

Eclipse创建jsp web项目

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit&a…

linux 后台运行程序方法

在shell中,有以下命令: 1. command& 让进程在后台运行 2. jobs 查看后台运行的进程 ,记下进程编号number fg %number 让后台运行的进程number转到前台 bg %number 让进程number转到后台…

selenium IDE的3种下载安装方式

第一种方式: 打开firefox浏览器-----点击右上角-----附加组件----插件----搜索框输入“selenium”-----搜索的结果中下拉到页面尾部,点击“查看全部的37项结果”---进入到的页面下拉到底部,点击selenium IDE出现弹框“添加到Firefox”--安装-…

三维GIS

三维GIS可能包括的十项功能:数据采集和检验有效性;数据结构化和转化为新的结构(包括创建拓扑关系和从一种拓扑关系转化为另一种拓扑关系);各种变化(平移、旋转、比例、剪切(shear)&a…

vmeare 双网卡桥接问题处理(bridge)

本人笔记本,双网卡:eth0(Broadcom),wlan0(intel).原本只用无线上网,启动VMAWARE时没有任何问题,现在用有线后发现错误:1) The network bridge on device /dev/vmnet0 is temporarily down because the brid…

Linux下svn的安装与部署

最近工作碰到一个问题,我和一个同伙负责开发一个管理系统,基于原来的代码上进行修改,每当他修改之后,我要再修改都要和他确定是不是最新的文件,才能进行修改。非常影响工作的效率,所以在网上找了关于svn的使…