粉丝1955获赞4477
大家好,欢迎来到跨界课堂,今天我们来开始我们的谷歌 icu 优化指南的第二讲速算琴工作原理。首先我们看一下今天学习的主要内容,第一个速算琴的演变和现状。第二个网络爬虫缩影和排名算法。 在上节课当中,我们简单的讲了一下缩缩隐形的演变史,今天我们再来看,继续看一下缩缩隐形的演变和现状。 第一个早期阶段,在互联网发展初期,早期的搜索引擎主要是目录式搜索引擎, 比如说雅虎这些速算器依赖人工编辑来组织和分类网站,并提供浏览式的搜索结果。这个有点类似于我们现在的书本,每本书他都会有 个目录,通过目录来去找到对应的内容。随着互联网的迅速发展,人们迫切的需要更快更精准的搜索结果,于是基于算法的搜索引擎开始展露头角。 随着谷歌的出现呢,改变了速算琴的格局。谷歌的搜索算法相对更加的先进和高效, 通过拍击 rap 算法评估网页的质量,并将其排名在搜索引擎的结果的前面。拍击 rap 也就是我们通常讲的 pr 值, pr 值越高也就是代表网页的质量就越高, pr 值越低就代表网页的质量也就越低。 谷歌的简洁高效的搜索界面以及准确的搜索结果吸引了大量的用户,迅速成为了最受欢迎的搜索引擎。移动和羽翼化 随着移动互联网的兴起,人们越来越多的使用移动设备进行搜索,因此搜索引擎开始重视移动的友好性,并推出移动搜索和运用程序搜索等功能。为了更好的理解用户意图,搜索引擎开始采用羽翼搜索技术, 例如谷歌的努力捷 graph, 以提供更精准的搜索结果。一句话的搜索并不同于我们的一个关键词的搜索,它能准确的把握住 人们到底想要的是什么方面的内容。人工智能和自然语言处理技术的发展,使得搜索引擎能够更好的理解用户查询的含义和背景, 并提供智能个性化的搜索结果。一些速算题开始采用机器学习算法来改进搜索结果的排序和质量,使搜索结果更加符合用户的需。 这边给大家举个例子,在上一课我们讲了一些用户通过堆设大量的关键词来获取较高的一个搜索的一个排名,但是现在的做法的话,已经完全没有用了。比如说我们现在要去搜索一个 iphone 十的手机,在最早以前的话呢, 一些做服装的网站里边可能会出现 iphone 十五的一个手机这个关键词,然后呢,他的网站里面大量堆成了 iphone 十五的这种关键词,他也可以有一个更好的一个排名。 但是这种做法的话呢,对于羽翼化搜索来去讲已经起不到任何的一个作用了,反而会受到骨骼搜索引擎的一些处罚。除了羽翼化和自然语言的处理呢,搜索引擎越来越注重个性化和本地化的一个搜索结果。 比如说你的网站的服务器是不输在美国的,你的美国的用户的话呢,他通过搜索相关的关键词可能会 会找到你,但是在英国的客户呢?或者是在印度的客户呢,他就不一定能找到你。搜索引擎呢,会根据用户的搜索历史、地理位置等因素,提供与用户兴趣和位置相关的搜索结果。隐私和数据保护方面, 随着用户对隐私和数据保护的不断增加,速算群开始采取措施保护用户的个人隐私和信息。一些速算群提供隐私模式和个性化广告等功能,以增强用户对数据的控制权。 在早期的时候呢,大量的有一些挂着木马的网页的话呢,他会用来爬取你自己本地电脑的一些信息, 会大量的暴露用户的隐私和数据。现在利用这种方式来去获取用户隐私和数据的网站,也会受到谷歌的一个大力的一个处罚。我们再看一下现状,当前谷歌 仍然是全球最受欢迎的速算琴,市场份额遥遥领先。除了谷歌之外呢,一些区域的速算琴也在不同的国家和地区拥有一定的市场份额,比如说中国的百度和俄罗斯的 index。 速算琴在不断的创新和发展,以适应用户的需求和市场的变化, 包括推出新的搜索功能,改进搜索算法,提升搜索结果质量等等。下面我们来看一下几个名词的解释。第一个,什么是网络爬虫?我们经常会提到爬虫这个概念,但是爬虫也有好的和坏的爬虫, 那爬虫的话呢,是搜索引擎用来自动抓取网页内容的程序,也称为蜘蛛、机器人或爬虫。你一个网页肯定要有内容,有内容的话呢,就会被搜索引擎去抓取, 抓取过之后呢,他会把你这些内容的话呢,会存储在他的一个数据库当中,这样的话呢才会形成快照。网络爬虫沿着链接从一个页面到另一个页面,逐个抓取网页内容,并将其存储在搜索隐形的数据库中。我们看一下这张图, 这张图是一张蜘蛛网的图,每一个点每一个节点相当于一个链接,这条每一条线呢相当于一个 url 地址,也相当于我们的路由,不管从哪任何一个点都可以去找到你的网站。从这张图上面呢,我们可以看到,当你的链接的数量越多,那肯定是越好的, 但是呢也要去区分一些情况。链接的话有两种,第一种形式的话是内部链接,第二种的话呢是外部链接,内部链接的话呢,要充分的去体现出来你网站的 个特点或特色,或者是符合你网站相关的一些主题或内容。外部链接的话呢,也要去匹配你网站的内容,也不是说你的链接数量越多他就越好, 他必须是有质量的一些链接才是有效的一个链接。网络爬虫呢,通过扫描网页的爱奇妙元代码来发现新的链接,并将这些链接加入到带抓取的队列中。那第二个什么是锁引?锁引是搜索引擎对抓取到的网页内容进行组织和存储的过程, 以便用户进行解锁。所以呢其实也是数据结构的一种方式,它可以快速从数据库当中找到你的内容,这个就是所以 搜索引擎将抓取到的网页内容分析处理并建立,所以将每个网页 的关键信息,如标题描述、关键词链接等存储在数据库中,以方便后续检索。类似于我们的图书馆,我们如果想想在这个图书馆里面去找到我们想要的书,我们应该怎么办呢?那肯定是跟每个书去编一个号,比方说一二三四, 如果利用书名去查,说我们找的很慢,但是呢,有了,所以呢之后呢,比方说我们想找到一本书,他到底是放在左边的书柜上还是右边的书柜上?放在左边书柜的第几层, 第几列啊?第几本书?我们通过这种形式的话呢,就可以快速的去找到我们这本书啊,不必要一本一本的去查,这个就是缩影的作用。第三个概念的话呢,什么是排名算法?排名算法是搜索引擎用来确定搜索结果顺序的算法,他 他决定了哪些网页在搜索结果中排名靠前。排名算法根据搜索查询的关键词、网页内容的相关性、权威性、用户体验等因素对搜索结果进行排序。 常见的旁明算法包括谷歌的拍击认可算法、机器学习算法、深度学习算法等,这些算法会根据不同的权重对搜索结果进行评分和排序。 了解了这三个概念之后呢,我们来看一下搜索引擎的工作流程。网络爬虫从一个或多个的一个趋势要开始抓取网页的内容, 抓取到的网页的内容呢,又不会送到,所以的服务器进行内容的分析和处理,所以服务器呢,根据网页的关键信息建立,所以将其存储在数据库中。当用户发起搜索查询的时候呢,速算金根据, 所以数据库中的数据和排名算法,返回与搜索查询相关的搜索结果,并按照一定的顺序进行排列。 所以说看到了这个流程过之后呢,应该大家都很清楚知道如果想让你的网页出现在谷歌的搜索结果当中,你应该做什么了吧?这节课我们就先讲到这里,我们下节课见,谢谢大家。