搜索引擎的原理
一、 搜索引擎蜘蛛
搜索引擎蜘蛛
(spider),可简称为蜘蛛,本意为搜索引擎机器人(robot),称为蜘蛛的原因是将互联网比喻成蜘蛛网,将机器人比喻成了在网上爬行的蜘蛛,是搜索引擎自动抓取网页的程序。
搜索引擎蜘蛛的作用:通过这些搜索引擎蜘蛛的爬行会自动将网页添加到搜索引擎的数据库当中,搜索引擎蜘蛛会自动判断网页的质量,根据既定的程序判断是否抓取。
搜索引擎蜘蛛的名称:以下为目前国内知名度比较高的搜索引擎的名字,还有很多的搜索引擎蜘蛛但是由于知名度不高,我就不一一列举了。
- Google的蜘蛛: Googlebot 、
- 百度的蜘蛛:baiduspider 、
- 雅虎中国的蜘蛛:Yahoo! Slurp China 、
- MSN的蜘蛛:Msnbot 、
- 有道的蜘蛛:YoudaoBot、
- 搜狗的蜘蛛:Sogou web spider
查看搜索引擎蜘蛛的来访记录,需要通过网站访问日志文件来查看,具体获取方法请咨询服务器提供商。
如果你想获得搜索引擎蜘蛛的亲赖,希望他天天爬行抓取网页的话,那就需要持续保持原创文章的更新,并且定期交换友情链接。
如果你不希望某个搜索引擎的蜘蛛来抓取你的网页,可以通过设置
robots.txt
来禁止抓取。
二、搜索引擎的原理
搜索引擎
,需要解决的技术问题总的分为:蜘蛛程序、分类建立索引、词库、排序算法因素、数据库索引和优化、数据库结构--蜘蛛。
1、抓取网页
这里可以用for循环语句,按照英文字母自动循环。当然,
网站建设
不只有英文,还有和数字,这些只能手工输入了。如果还是循环抓取,估计有很多都要落空。抓到的代码需要分析编码类型是utf-8还是gb2312.我的搜索引擎只想抓简体中文。
如果抓取超时,则记录,下次大概十天之后再抓取,如果连续超时三次,将T出数据库。
2、建立索引
3、词库
4、排序算法
5、数据库索引
参考推荐:
原文: 搜索引擎的原理
版权所有: 本文系米扑博客原创、转载、摘录,或修订后发表,最后更新于 2010-01-07 16:05:58
侵权处理: 本个人博客,不盈利,若侵犯了您的作品权,请联系博主删除,莫恶意,索钱财,感谢!
转载注明: 搜索引擎的原理 (米扑博客)