十大深网搜索引擎,查询学术资料
当我们想要搜索某些内容时,Google或Bing通常会是我们的第一选择。但无论是Google还是Bing都不会提供在隐藏在暗网中的信息。
此外,当你通过Google搜索时,Google还会记录你在互联网上的每一步操作。对于注重个人隐私安全的你来说,能够对在线活动保持匿名显然更能引起你的兴趣。
“深网(Deep Web)”也称为“不可见网(invisible web)”,该术语指的是一个庞大的底层内容存储库,一个通用网络爬虫工具无法访问的在线数据库。
说它庞大,是因为深网所包含的内容估计要比能够通过常规搜索引擎搜索到内容要多近500倍,但由于搜索引擎的限制,大部分内容仍无法被搜索到。
由于大多数个人档案、公共记录和其他与个人有关的文档都存储在数据库中而不是静态网页上,因此大多数关于个人的敏感隐私信息对于常规搜索引擎来说都是“不可见的”。
然而,随着搜索算法的不断完善和更新的,通过一些深网搜索引擎来找到你想要的商品、内容或信息正在变得越来越容易。
为什么无法通过Google搜索出深网的内容
通常来讲,深网或者暗网(Dark Web,深网的一个子集)的内容是没有编制索引的,所以无法通过常规搜索引擎(如Google和Bing)搜索出结果。换句话来说,所有Deb网站(.onion)都没有编制索引,而Google不会提供任何不通过万维网索引的搜索结果,这些内容隐藏在HTML表单后面。
通过常规搜索引擎进行搜索,内容会从相互连接的服务器上提供,而当你访问暗网时,你并不是在浏览这些相互连接的服务器。相反,一切都保留在Tor网络的内部,这就为每个人都提供了安全和隐私。
根据研究人员的说法,只有4%的互联网内容是公众可见的,其余96%的网站和数据隐藏在深网中。
深网也涉及到许多非法活动,包括毒品和武器交易、高度复杂的黑客工具、非法色情、政府军事机密和其他非法活动。
不得不说的robots.txt文件
robots.txt文件是搜索引擎中访问网站的时候要查看的第一个文件,通常位于一个站点的根目录下,其作用是告诉搜索机器人哪些记录、注册表、文件和目录禁止被索引。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索机器人将能够访问网站上所有没有受到口令保护的页面。
在这篇文章中,我将为大家介绍十款能够获取深网搜索结果的搜索引擎,有一些读者可能使用过,但我相信并不是所有人都了解。
1、pipl
pipl的查询引擎可以帮助你找到在常规搜索引擎上无法找到的深层网页。
与其他搜索引擎(Google和Bing)不同,pipl能够提供从深网获取的搜索结果。
pipl 的robots文件设置为与可搜索的数据库进行交互,并从个人档案、成员目录、科学出版物、法庭记录和许多其他深网资源中提取相关信息。
根据pipl官方的说法,pipl搜索引擎所使用高级语言分析和排序算法,能够在一个简单、易于阅读的结果页面中为你提供关于某个人的最相关的信息。
2、My Life
Mylife的公共页面可以列出与某个人相关的大量数据,包括年龄、曾居地和现居地地址、电话号码、电子邮箱地址、就业信息、照片、亲属信息等。
据称,Mylife拥有超过2.25亿个公共页面,几乎涵盖了所有18岁以上的美国公民的数据。
3、Yippy
事实上,Yippy是一个元搜索引擎(它通过利用其他网络索引得到它的结果)。与Google不同,它不会存储你的浏览历史、查看过的条款或电子邮件。
4、Surfwax
SurfWax搜索是一项免费和基于订阅的服务。该搜索网站提供了许多功能,而不是纯粹的搜索。这些功能包括:
- Focus-允许你添加“焦点词”到搜索中。根据焦点词的不同,可用于扩大或缩小你的搜索范围。
- SiteSnaps-获取网站页面的简要说明,并进一步识别引擎认为与焦点词相关的词条。
- ResultStats-衡量并显示要罗列出大量搜索结果所需花费的时间。
根据Surfwax的比喻,这就相当于在冲浪过程中,surfwax能够帮助冲浪者抓住他们的冲浪板,而对于网上冲浪得人来说,SurfWax可以帮助你获得最佳的信息控制——提供最佳的相关搜索结果。
5、Way Back Machine
Wayback Machine是互联网档案馆(Internet Archive)收集开放网页的一个前端,包含超过100 TB的数据。
Wayback Machine通过URL访问这些数据,但无法通过内容来访问——客户端必须知道特定网页或Web网站的正确URL才能进入对应的页面。
互联网档案馆允许公众将数字资料上传和下载到其数据集群,但其大部分数据是由其网络爬虫工具自动收集的,这些爬虫工具可以尽可能多地保留公共网络。
Wayback Machine的web档案包含超过1500亿份网络捕获数据。另外,该档案还监督着世界上最大的图书数字化项目的其中之一。
6、Google Scholar
Google Scholar允许您搜索各种学术文献。它从期刊出版商、大学资料库和其他被它认为是学术性的网站上获取信息。
Google Scholar旨在帮助你发现与你输入关键词相关的学术资源。另外,你还可以配置Google Scholar,以允许它自动访问NCSU库对期刊和数据库的订阅。
7、DuckDuckgo
这个深网搜索引擎同样与其他九款搜索引擎一样,允许你搜索常规的网页。它有一个简洁易用的界面,并且不会追踪你的搜索。
搜索设置中的选项是十分丰富的,你甚至可以通过自定义它来增强你的用户体验。
DuckDuckGo强调返回最好的结果,而不是最多的结果,并从400多个独立的来源中筛选出这些结果,包括一些知名的百科网站(如维基百科),以及其他搜索引擎,如Bing、Yahoo!、Yandex和Yummly。
8、Fazzle
Fazzle.com是一个元网络索引,可以用英语、法语和荷兰语访问。Fazzle会搜索120多个经过修改的web索引,以传达“快速准确的结果”,每一条搜索结果旁边都有一个查看页面。它的查询项目包括网站、下载、图像、视频、音频、黄页、白页、购物和新闻等。
不管其他的查询项是什么,都是从Fazzle运行的众多搜索列表中组合起来的,但是Fazzle会在它的SERPS页面上显示“最佳选择”和20个不同的结果。
9、not Evil
与其他Tor搜索引擎不同,not Evil并不是以营利为目的的。
它是Tor网络中的另一个搜索引擎。从功能和搜索质量来看,它在众多搜索引擎中具有很强的竞争力。
没有广告和追踪。随着搜索算法不断更新和完善,你很容易找到想要的商品、内容或信息。使用not Evil,你可以节省大量时间并保持完全匿名,并且它的用户界面非常地直观。
10、Start Page
如果你十分注重个人隐私安全,并且不会使用Tor浏览器,那么startpage绝对会是一个非常不错的选择,它可以说是最好的搜索引擎之一。
与其他的搜索引擎(如Google)不同,Start Page不会记录你的IP地址,因此你的搜索历史会得到很好的保护。
对于从事研究的人来说,Start Page搜索引擎会是一种很好的选择,因为它不会泄露你的个人隐私。
原文转自:十大深网搜索引擎,它们提供了你无法从Google和Bing获取的信息
版权所有: 本文系米扑博客原创、转载、摘录,或修订后发表,最后更新于 2019-01-24 05:00:54
侵权处理: 本个人博客,不盈利,若侵犯了您的作品权,请联系博主删除,莫恶意,索钱财,感谢!
转载注明: 十大深网搜索引擎,查询学术资料 (米扑博客)