admin @ 12-23 11:24:50   全部文章   0/478

想起了他下载系统中的注意力之流-月牙寂道长

下载系统中的注意力之流-月牙寂道长
传统流系统标度律
在看完了《科学的极致漫谈人工智能》这本书之后,对书中的第九章(美丽的注意力之流)有很深刻的印象。在今天晚上暴走5公里的路途中,一直在思考这个理论。本人做的p2p缓存系统,隐约的感觉到能够用其中的理论来对下载系统做一个解释。废话就不多说了,我们下面先看看此书里提到了哪些理论。
1、河流与hack定律
hack定律表达为:在河流的网络中,支流的长度L和相对应的蓄水盆地的面积a之间存在着如下标度关系:
L~a^h
也就是L与a的h次方成正比王效兰,其中h的数值在大多数水系的实证数据中都被测试为0.6左右后宫计。
其中的理论解释为:这个网络为一个分形结构,将河流盆地任务是一个复杂起伏不平的二维分形对象,以至于分形维数接近于三维,并认为河流网络是一个非常复杂的一维对象,以至于分形维数接近于二维,那么0.6左右(约为2/3)的指数
(注意孙明楠,如果不知道什么是分形,请自行百度分形理论)
书中的演示图为美国的河流。这里在网上找了一张长江流域的水系图,仅作为直观演示

2、血流与kleiber定律
kleiber定律表达为:预测生物体的能量消耗F和体积M之间存在着如下关系
F~ M^s
其中s的数值在大多数生物的实证数据中都被测试为0.75左右。
并在此基础上后人发展出了“新陈代谢理论”。如果我们把生物体的能量消耗看做与其皮肤面积成正比的一个量,那么标度关系应该为2/3,而实际测量的为3/4(0.75),进步一步的分形结构解释为:如果考虑到皮肤补水光滑的而是起伏不平的二维结构以至于接近三维,生物个体则是非常复杂的三维结构,以至于接近思维,那么3/4(0.75)的标度指数则可以理解了。
3、hack定律与OCN
从hack定律与kleiber定律来看两者是类似的,都是在描述时空结构下的流网络“流量”与“存量”的关系
最优化输运网络(optimal channel network OCN),这个模型则是在hack定律的基础提出来的。介绍了三种输运结构。其中中心是汇桐乡教育网,赵雷画周边的为源,任务为实现一个网络来完成从源到汇的输运流。
1)结构总成本最小(使用的总连边数),但平均成本高(汇到源的平均距离)

2)与第一种相反

3)将两个成本都降到了最低歙县教育网。

三个方案的总结为:
1好比为计划经济,总体高效,但个体不一定高效繁星之舞。
2好比为完全自由的市场经济,大家各自为政,虽然每个源都很高效,总体上来看却造成了一定的浪费。
3从宏观上和微观上的成本都最小化了。
最后对于二维网络结构从中生成的扩展树,可以定义当前链接状态s的能量E(s)= sum(A[i] ^d)
4、统一的流系统标度
F~M ^ (d/(d+1))
其中d为流系统所在空间的维度。
注:以上摘自《科学的极致漫谈人工智能》第九章丛林杀戮。(注意此文章仅仅为学习交流用)。仅仅简单的摘抄了几个理论,如有描述不清楚的,可以直接去看原文。
注意力流
著名的诺贝尔奖获得者赫伯特·西蒙在对当今经济发展趋势进行预测时也指出:“随着信息的发展,有价值的不是信息,而是注意力。”这种观点被IT业和管理界形象地描述为“注意力经济”幽冥鬼船。如果不知道什么是注意力经济的,请自行google或百度。
互联网中,每个人的注意力都是有限的。那么整体上来讲所有的人的注意力总是在互联网中不断的流动,表现为,从某些冷门的网站向一些热门的网站流动,从冷门的新闻故事向热门的新闻故事流动等等。
在《科学的极致漫谈人工智能》第九章中,定义两个量:
uv(unique visitors)独立用户数
pv(page views)页面点击率
为了解释这两个值,书中介绍了两个真实系统。这里要用到两个值,流量与存量。
1)地铁系统
地铁中,最优的目的为把爱放开,让乘客能够尽快到达目的地,减少在地铁系统中的乘客数量。也就是最小化存量系统。
2)商场
商场中,为了让顾客能够尽量的经过多的柜台,目的是提升流量,正大存量系统。
那么当地铁和商场中的人流达到一个动态平衡时美玲凯,进入系统的人数保持着一个相同的规模,相当于网站的uv,而在系统中停留的人数则相当于pv,则有
pv~ uv^d
其中d为网络的粘性。
注:以上摘自《科学的极致漫谈人工智能》第九章梁一桐。(注意此文章仅仅为学习交流用)。仅仅简单的摘抄了几个理论,如有描述不清楚的,可以直接去看原文。
简单文件服务器中的注意力
我们来看看一个最简单的文件服务器,所有的用户都从这个服务器下载文件。那么我们怎么来衡量呢。
首先,我们假设服务器性能足够好,能够服务足够多的用户。
那么应该也存在着两个值
uv独立用户数
pv就是系统中当前逗留的用户数量
如果对于一个文件下载服务器来讲,应该是类似于地铁系统属于一个最小存量系统。那么什么东西会影响整个系统呢。
首先看下图,其中大圆表示为服务器,其中的小圆,可以理解为服务的不同文件,箭头表示用户。

1)这里,文件的大小,会决定用户的连接时长,类似于用户坐地铁,有的地铁线路上,则待的时间长,有的地铁线路短,待的时间则短。那么这里用户的pv逗留数量与文件的大小存在着正比的关系。
2)当用户的连接带宽够大的时候,传输的速度够快,则用户逗留时间会短。类似于,人逛商城,有的人走路快,则停留时间短。那么这里用户的pv逗留数量焚烬者,与用户的下载带宽存在反比的关系。
每个用户会把所需要的文件下载完,守恒的则为用户的下载时间与下载速度。
那么对于一个简单的下载系统来看,文件大小与用户的下载速度快慢会影响到文件服务器的一个服务能力也是可以解释的。
但现实生活中的文件服务器侠行天下,并没有这么简单。服务器的内存并不是足够大的,当用户访问的文件不在内存中的时候,则会从硬盘中读出来,放到内存中,当内存满了之后,新的文件则会将老的文件从内存中替换掉。
那么对于内存来讲,就属于一个类似于商场的流系统殷美根,目的是让文件在内存中保留的时间更长大嘘 ,使得文件服务器能够更快的服务用户满堂爹娘。那么这里的指标则为:
所有文件数,对应uv
在内存中逗留的文件数:对应pv
当文件的从磁盘换入内存,又从内存清除达到一个动态平衡的时候,则服务器的内存系统则就成为了一个类似于商场的模型。
但我们知道,以上的两个模型并不是独立的,而是两者之间存在着关联。两者会相互影响。比如正在从硬盘读入内存的文件,肯定会影响到用户下载的速度,尽管用户的带宽很大,但还是有可能无法充分利用用户的带宽想起了他。
所以对于文件系统中,我们经常可以看到磁盘io对性能的影响,会造成整个文件服务的服务效果。加大内存,改善磁盘io,在一定程度上会提升文件服务器的性能。
龚浩华
月牙寂道长
qq 29185807
2015年8月5日
如果你觉得本文对你有帮助,可以转发分享到你的朋友圈,让更多人一起学习张正芬。
第一时间获取文章,可以关注本人公众号:月牙寂道长,也可以扫码关注

最后感谢关注本人公众号。如果想查看历史文章,可以点击公众号下方的按钮“历史文章”或者点击公众号下方按钮“文章目录”获取所有文章的索引文件
返回顶部