我就像一个爬虫

September 2, 2014 | 12:59

开学两天了

开学两天了,我时常在这个刚搬过来的校区里面迷路,有时候觉得学校小,有时候觉得学校大。

我前不久知道了什么是SEO之后,觉得这些搜索引擎爬虫真是有意思的很,他们不仅能量不一样,爬行速度不一样,而且性格脾气也不一样。百度蜘蛛就比较慢热,当他发现新生事物后,就会天天去观察,但是并不纳入自己的认可朋友圈之中,直到N天以后,觉得这个新生事物够格进入自己的朋友圈,他才会有所行动,否则就会天天观察,期待他成长为值得纳入朋友圈的东西;Google bot则不一样,无论如何,只要有新生事物的存在,Gbot就会立刻收纳。他是个表面开朗活泼,内心鸡贼的bot。Gbot收纳了之后,就会暗地里偷偷观察他的活动,如果感到不爽,才会降权,降频,甚至K掉。

通过观察这些小爬虫们的行动,我觉得我自己也是一只爬虫。

爬官网

在教务系统公布课程表以后,我立刻去查看,并发现了我可以去爬行的好多条新路线。这些路线有的以前曾经听说过,但是根据BFS算法,我还来不及去爬。现在BFS网络已经有一定规模,而且这部分被官方指定为需要局部DFS的知识,所以这都被我认为是些权重很大的爬虫路线。我发现了以前曾经DFS过的汇编语言,还发现了和汇编语言强连通的组成原理,组成原理我没有dfs爬过,但是通过在我爬别的站的时候(知乎),我发现轮子哥说这些都是过时的东西,本没有权威们认为的那么重要,因此在未来的大型dfs活动中,我会对这部分内容稍稍降权。

另外,我今天非常多的爬虫同行们都去dfs一个思科的网络课,我随着虫流也跟着去了,因为在我自己的爬虫算法中,会参考别的爬虫对某些东西的权重而修改我自己的权重列表。去了之后发现他要讲的东西我是不懂的,以前完全没有dfs过。曾经知道的设置ip,诊断网络的一点皮毛估计下节课就完全没爬过了。虽然没有爬过,我对此还是提不起兴趣。因为当我从学校的旺园爬虫服务器转出到别的服务器的时候,我几乎只有很小的几率转去思科或者类似行业的公司的代码仓库里发展。而且在这样的地方爬,我的速度很慢很慢,ping值过高,我不喜欢这样的站。

还有数据库和网络与分布式计算没有爬过,不知道感觉如何。但是我现在感觉,虽然上级要求我要爬某些知识,还要对我的爬行结果打分,但是我还是不太想在官方指定场所爬行。我喜欢新的东西,喜欢潮流,喜欢爬那些明星爬虫爬过的地方,因此,我要建立一个新的爬虫网络,建立的前提就是先要建立一个巨星爬虫网络,这样我才能根据巨星爬虫怎么爬来选择我怎么爬。

 

爬基础算法 & 机器学习

这是个我来了大学才发现并逐渐认识的,而且下决心要爬很久的一个地方。这个东西要dfs实在是非常费劲,我有时候爬的很兴奋,有时候爬的很累很困,有时候爬的很功利,有时候又爬得很感兴趣…… 曾经我BFS到了一个“机器学习”领域,bfs太浅让我不知道那是否好玩,于是我设定好dfs层数上限,对他进行了一次不深不浅的dfs,场所选在了Coursera。dfs后我的想法是,我还是先把大部分的权重分给dfs基础算法比较好。一入ML深似海,ML太热我不敢碰呀。

 

BFS网络

作为一个爬虫,及时给某个领域的dfs的权重再高,也应该保持bfs一定的权重。bfs是个非常有趣的过程,因为这个bfs可以调整对别的dfs的权重, 可以K掉一些以前爬的地方,可以新增一些地方,可以做的实在很多很好玩。

首先BFS的场所很好玩,由于我有物理机械臂,可以临时移动到图书馆,书店,别的爬虫的宿舍等等地方;由于给联通交了网费,所以我可以在旺园爬虫服务器里面就去知乎,36kr,Startup News(一个爬虫路线列表),极客公园,美剧……

其次还会有被动BFS。比如昨天晚上,一个叫做“畅神”的爬虫就给我的BFS队列里面添加了一个美剧,而且反复用各种手段提高他在我的队列里面的权重。最后我不得不决定对这个美剧进行DFS,DFS后发现果然是个好东西。

最后BFS有时候会像吃了迷幻药一样,走错了路,还错误的把某些路线添加进入DFS列表,等到某一天,BFS到某些有缘分的地方的时候,才会把DFS里面的这个领域给K掉。

( 转载请注明: Jecvay Notes )

多达 3 条吐槽

  • user-agent:btspread
    2014/09/04

    表示同感。好有道理

    • 2014/09/04

      我不就忘了UA这个名词, 就专门起这个名字来提醒我...

  • debugzh
    2016/10/08

    感觉这篇文笔有王小波的感觉

说几句