Digg详解
引言
如今,互联网上的信息浩如烟海,一个人用一辈子的时间也不可能穷其究竟。要想在成堆的新闻报道中挖掘出所需内容并将它们缩减到一个可管理的规模,可能需要一个庞大的团队才能办到,此外还需要另一个团队来挑选出普通网络用户可能感兴趣的内容。之后,再由一个团队报告用户实际上对哪些内容真正感兴趣。除此模式之外,您是否访问过Digg.com网站呢?这是一个由用户推动的新闻网站,通过几十万人的共同努力来查找、提交、评论和撰写来自网络各个角落的新闻故事。
Digg与Slashdot类似,它没有专门的编辑人员,是一个采用民主方式的新闻提交网站。在Digg,网站用户做出有关网站内容的所有决定。大多数时间里,这种方法看起来非常奏效。Kevin Rose曾经是TechTV的电视名人,他于2004年12月在Jay Adelson和Owen Byrne(现在分别担任Digg的首席执行官和资深软件工程师)的帮助下创立了Digg。他只花了1,000美元就开发并推出了Digg.com,这在很大程度上要归功于开源软件的功劳。六个月后,网站有了大约25,000名注册用户。短短一年后,Digg便拥有了80,000名注册用户和每天500,000次的不重复访问量。2006年5月,Digg的注册用户数量达到300,000,拥有每天100万次的不重复访问量,每天的新闻帖子数量则达到1500篇。
庞大的Digg社区由担任不同角色(这些角色经常发生重叠)的用户组成。新闻提交者负责张贴他们在博客、专业新闻网站和某些不知名的网络角落找到的新闻报道。这些报道都进入到Digg的内容序列中,临时评论员则在这些内容序列中查找自己感兴趣的内容并把它“挖掘”出来——也就是单击一个按钮,让Digg.com知道他们认为这篇报道很出色。在文章得到足够的挖掘(并且满足一系列其他基本要求)之后,它会被提升到主页中。此外,还有一些真正的专职评论员,他们每天花费数小时的时间梳理内容,并主动提升好的新闻并报告不好的新闻(如果有足够多的人报告说某篇新闻不好,则它最后会被删除)。实际上,这些人决定了哪些新闻能够出现在主页上从而得到数以千万人的点击和浏览。有时候访问量之大甚至会意外地使Web服务器崩溃。如果访问量从每天400人突然增长为两小时内5000人,小型网站和家庭服务器可能会变得不堪重负。而对于博闻网这样的网站(我们的服务器能够处理这样的流量),我们可以很容易地知道我们何时被“挖掘”了。当我们的统计数据表明某篇文章超过了每小时数千次的正常点击量,我们便会检查一些主流的新闻汇总站点(Slashdot、Fark和Digg),看看是谁把它挖掘出来了。
最后,还有Digg的读者,他们大多是Digg的用户,享受着负责将最佳新闻提升到主页上的Digg志愿大军的辛勤劳动成果。作为报答,读者们帮助Digg保持良好的广告收入,让新闻提交者和挖掘者能够继续他们的劳动。
尽管某些人可能将此称作一种根本性的变革,但是网站自身的基本功能仍然非常简单和直观。使用Digg的过程很简单。当您访问Digg.com主页的时候,已经可以看到当前一些最受欢迎的新闻报道,足够多的用户挖掘了这些报道并将它们提升到主页上。
如果想做更多事情而不只是阅读主页新闻,可以在Digg.com上执行以下几类主要的操作:
注册Digg
只需花大约5秒钟的时间您就可以在Digg中创建一个帐户。注册帐户之后,便可以使用网站的所有功能,并在提交和挖掘新闻报道方面发挥积极的作用。
浏览和挖掘Digg
浏览Digg的“Upcoming Stories”(即将发布的新闻)序列中的新闻,通过单击每篇新闻标题左侧的“Digg”(挖掘)按钮来让Digg知道哪些报道是您喜欢的。(您挖掘的每篇文章都会保存在您的帐户中以供今后查看,所以您最后可以得到一个包含曾经挖掘过的所有文章的动态列表。)某篇报道的挖掘次数越多,它就越有机会进入主页。此外,您还可以按类别浏览该序列,并且可以在“Story View”(新闻视图)和“Cloud View”(潜力新闻视图)中来回切换。
在“Story View”(新闻视图)中,内容序列以简单的垂直显示方式排列各篇新闻。可以按日期、挖掘量或者评论数量来对它们排序。在此视图中,我们正在浏览“All”(全部)类别。 |
在“Cloud View”(潜力新闻视图)中,内容序列以动态列表方式排列新闻,让您一眼便可以看到众多的新闻标题。新闻的挖掘量越大,它的标题就越大,颜色也越蓝。 |
评论
如果发现某篇新闻特别有趣并且想补充一些内容或与其他Digg用户讨论它,可以单击新闻简介下方的“comments”(评论)链接。可以在评论页面的底部添加您自己的意见。
埋葬
作为一名Digg用户,主动报告重复新闻(重复新闻是不允许的)、死链、错误新闻、过时新闻、缺陷新闻以及垃圾信息的工作将得到大家的赞赏,可以单击每篇新闻简介下方的“problem”(问题)下拉列表中的相应链接来报告相关信息。如果有足够多的用户报告说某篇新闻有问题,或者说希望“埋葬”它,它便会从Digg的新闻序列中消失,而且只会显示在搜索结果和用户档案中。
提交
最后,您自己也可以将新闻张贴到Digg序列中,希望其他用户发现它的有趣之处并将它挖掘到主页中。如果您的新闻做到了这一点,会给您带来很大的乐趣。您需要做的就是单击主页左上角的“Submit a Story”(提交新闻),进行关键词搜索或URL搜索,并提供所张贴新闻的标题、链接或简短介绍(如果系统显示您的新闻尚未提交)。
提交的新闻会立即出现在“Upcoming Stories”(即将发布的新闻)序列中,所有人都可以在这里看到它。
它要么由于得到足够的挖掘而进入主页,要么由于没有得到足够的挖掘(或者由于多位用户报告它存在问题)而最终消失。
上面介绍了Digg.com的大部分基本知识,但是您还可以在Digg.com上进行更多的操作。它是新闻网站、博客订阅程序和“社交书签”中心的集合体。可以在Digg中使用的部分其他功能包括:
- Digg间谍:通过Digg间谍可实时了解Digg.com的活动。可以在新闻获得提交、提升、挖掘和报告时得到相关信息。
- 社交书签:添加朋友并通过您自己的档案页面来跟踪他们在Digg上的活动。
- 播客:订阅Diggnation播客视频,听Digg的创立人及其伙伴讨论每周Digg上最受欢迎的新闻和解决有关Digg的各种问题。(请参阅什么是播客来了解这种平民媒体。)
- 博客连接:如果您的博客空间是由Typepad、Blogger、Live Journal、Moveable Type或Wordpress提供的,则可以在Digg上的任何新闻中通过一次单击将新闻添加到博客中。只需单击任何新闻简介下方的“blog story”(将新闻加入博客)链接即可。(还可以在您自己的博客文章中添加一个“Digg this”(挖掘此文章)按钮,让您的读者将某篇文章快速提交给Digg。然而这并不是一个由Digg.com开发或认可的功能,但是Digg看起来并不介意人们这样做。)
- RSS 源:通过一个RSS源将Digg新闻添加到您自己的网站中,您可以通过多种方法来选择要提供的新闻——可以自动添加所有Digg主页文章、您挖掘或评论的所有文章以及您的朋友挖掘或评论的所有文章。
- 用电子邮件发送新闻:通过单击新闻简介下方的“email this”(用电子邮件发送此文章)链接,可以用电子邮件将任何新闻发送给朋友。
- 阻止/报告用户:如果发现您不喜欢某个人提交的文章或发表的评论,可以阻止该用户,使与该用户有关的任何信息都不再出现在您的Digg视图中。如果有足够多的Digg用户阻止了该用户,那么Digg会禁止该用户登录。
Digg网站的用户承担了大量的工作。表面上,是由志愿者群体来不断提供Digg主页上值得一看的新闻内容,但是如果试想一下要为执行相同工作的人支付多少薪水,您便会知道这是一种多么令人称道的业务战略!而在背后,Digg只有12名真正的员工和大约75台服务器。在下一节中,我们将了解使Digg得以顺利运转的一些幕后技术。
Digg的幕后技术
对于一个每月页面浏览量超过2亿次(2006年4月数据)的网站,Digg的技术框架显得相当简洁。与任何专有系统一样,Digg的技术部门不会将它的技术秘密全盘托出。但是我们还是多多少少探听到了一些信息,Digg的整个系统建立在LAMP(Linux、Apache、MySQL、PHP/Perl/Python)基础之上,其编程模型则将多个服务器应用程序(使用PHP编写)紧密联系在一起,并且使用了MySQL数据库这样的东西。它允许系统架构中使用多种语言进行交流,同时将因翻译转换工作而产生的停顿降到了最低。
在2006年6月14日录制的Diggnation播客视频中,凯文罗斯谈到服务器的总数为75台。在博闻网通过电子邮件进行的访谈中,Digg的CEO Jay Adelson确认服务器为Penguin Computing和Sun的服务器,并且说Web服务器运行PHP和Debian Linux操作系统,而数据库服务器则运行MySQL数据库管理软件。Digg实际上并不需要存储太多的数据,因为它处理的几乎都是文本数据,但是Adelson说当前的系统具有无限的扩展能力。在2005年12月的Mad Penguin访谈访谈中,Adelson称Digg的基础结构“每月都要翻一番以满足不断增长的用户需求”。Digg的基本架构如以下所示:
Diggnation
Digg并不仅仅是一个新闻网站。它还包括一个由创立人凯文罗斯撰写的官方Digg博客和一个由Rose与前TechTV主持搭档Alex Albrecht一起主持的播客。Diggnation播客报告每周Digg上最受欢迎的新闻文章,以及您在其他任何地方都没法打听到的其他Digg相关新闻。请参阅Rev3:diggnation了解更多信息并进行订阅。
Digg.com技术基础结构概览
在这个系统中,用户负责提交和挖掘新闻,并可利用Digg.com上提供的所有其他功能。Digg不使用Cookie,只在服务器端存储数据,所以您的用户数据(以前挖掘的文章、朋友、评论等)都保存在您的Digg档案中(该档案则存储在Digg数据库中)。在访问网站时,您需要进行登录,这实际是一种初步安全措施,确保用户每次访问网站时的合法性。在系统的各个位置上有许多被Digg称作“因果检查”的合法性检查:
- 当用户尝试提交文章时,系统会检查提交的文章是否合法——是否是垃圾文章(由计算机自动提交的文章)以及用户是否合法有效(是否被禁止或者受到其他限制)。根据Adelson的说法,因果检查系统还会考虑其他多种因素,包括某些“Digg的重要用户主体的唯一属性”。
- 如果某篇提交的文章被顶上来并将进入某个类别主页或网站主页(这由多种因素决定,包括文章的挖掘量和挖掘速度),系统会进行检查以确保挖掘是有效的。其中一项检查是查找仅为了提升某篇文章而创建的欺骗性帐户。Adelman说,“我们的因果检查系统知道如何区分仅为了挖掘某一篇文章而创建的用户和曾经与站点进行过交互的用户。”该系统还会查找自动挖掘现象,也就是通过计算机进行文章挖掘,以将某篇文章通过欺骗方式提升到主页中的现象。
Adelman确认,Digg在幕后没有任何编辑控制,无论是文章的提交、提升还是埋葬(从Digg序列中删除某篇文章)均是如此。除了会让用户开启一个不文明用语过滤器以屏蔽某些不文明用词之外,提交文章时不存在任何审查机制。而且Digg管理“埋葬”的方式也与管理其他操作相同,采用了一种专有算法。系统会运行一个“取消提升算法”,它决定了用户报告的文章何时应该从网站主要页面中消失。
所有的这些听起来都十分民主和具有超前思维,Digg将我们带到了平民网络的道路之上,将普通大众变成了主编、记者、编辑、股票交易商和百科全书编撰者。但是在2006年中期,人们对于Digg是否真的完全由用户推动也引起了一些争议和质疑——至少在少数人的脑子里和口头上是如此。在下一节中,我们将了解用户对Digg的看法。
现金
Digg.com在2005年11月从包括Omidyar Network(创建eBay的Pierre Omidyar和Marc Andreessen(Netscape的共同创立者)在内的一个高科技投资集团那里获得了280万美元的风险投资。
关于Digg的争议
科技博客网站ForeverGeek的麦吉弗在2006年4月曾说,“Digg的99%都是很出色的。”虽然在后来与Digg的创立人凯文罗斯发生争吵之后,这位博客作家改变了他对Digg的看法,但是大多数人都知道他最初的评价是正确的。在Digg上,人们争先恐后地张贴吸引人的文章,Digg也会经常提供一些未被发掘的精彩内容,引导人们发现那些不为人知但内容精彩的博客,大部分网站的用户都自觉自愿地致力于提升好文章和埋葬差文章的工作。理论上,用户推动型网站的新闻立场是真实和难以被篡改的,至少难以被大公司和过于热心的编辑所改变。当然,某些人也许会不同意这一观点,尤其是最后一点——是否存在编辑控制是麦吉弗产生怨言的原因,我们过一会将谈到这个问题。
在任何基于Web的社区中,抱怨和不满都是正常的。对于Digg,长时间以来最大的怨言之一就是对文章的评论,这些评论经常是粗鲁或无聊的,并不能引起人的深思或就此展开讨论。但是通常的情况是,随着网站的成长,网站可能被滥用的顾虑也随之增长。这些顾虑大部分与我们在前面提到过的欺骗性Digg活动有关,例如:垃圾文章、欺骗性帐户和自动挖掘。其他可能的滥用包括:由于缺少编辑控制而利用网站进行产品推广的可能。没有道德的网站经营者可能会张贴一些看起来具有极大诱惑力的文章,让Digg用户点击和浏览他们的网站,从而产生页面浏览量并增加广告收入。2006年3月,一种十分不寻常的滥用引起了Digg的注意,当时有一系列的帖子都在散布一个谣言,称Google将收购Sun Microsystems,这样的收购可能会使Sun的股价迅速窜高。该文章的提交具有很强的连续性,每天至少有四篇,而且Digg的用户会将其中的几篇提升到主页上。每一次,都是由相同的Digg用户来挖掘这些文章。事实上,这仅仅是一个谣言,一些人怀疑这些文章的张贴者试图利用Digg散布虚假谣言来刺激Sun的股价以从中牟利。
那么,让我们回到“99%是出色的”这一评价上,也就是说Digg.com上还有另外的1%具有不可避免的错误并且需要改进,以便捕捉住所有垃圾信息、自动挖掘行为和对网站的其他恶意滥用。现在,网站每天要处理100万次访问和1500篇提交的新闻,但是麦吉弗最后的怨言(这引起了一场小型论战,几乎所有的科技博客都对此进行了报道)与上述所有内容都无关。
开始时争论是小范围的而且影响不大。麦吉弗经常向ForeverGeek和Digg提交文章,而他在Digg上发现了一件奇怪的事情:由同一用户提交的两篇文章都被提升到了主页中,它们的挖掘者和挖掘顺序几乎完全相同,而凯文罗斯碰巧是这两篇文章的挖掘者之一。尽管麦吉弗无法从中得出任何结论,但是显而易见的一点是:Digg漏掉了一种自动挖掘的情况,而凯文罗斯作为挖掘者之一则令此事件更加奇怪和难以解释,Macyger因此离开了Digg。他将自己的观察结果发表在ForeverGeek的博客上。
更巧的是,一位ForeverGeek的读者(不是麦吉弗)将该博客文章提交到了Digg上。接下来,他们发现该文章是不可挖掘的(被迅速埋葬了)而且禁止了ForeverGeek的URL,用户无法再提交任何ForeverGeek上的文章。被埋葬的文章很快便从网站中彻底消失了。
麦吉弗接下来又张贴了一篇题为“Digg Corrupted:Editor's Playground, not User-Driven Website”(Digg的堕落:编辑的游戏场,而非用户驱动型网站)的文章,该文章迅速传播开来。在Digg的官方博客中,凯文罗斯发表了一篇对论战的回应,简单表明这件事并没有值得探究的秘密。他说,他也同样会挖掘他认为有趣的文章,而且如果在那种情况下发生了自动挖掘,他也毫不知情。至于ForeverGeek被禁止,他说,这是因为ForeverGeek违反了Digg有关垃圾信息和欺骗性帐户的规定。
麦吉弗则不肯轻易罢手,他认为罗斯的回应没有回答任何实质性问题,并在ForeverGeek上使用专为本事件开辟的一个流动帐户继续质疑该网站的根本前提,即没有编辑控制这一问题。很快,没有任何解释,Digg.com解除了对ForeverGeek的禁止,可以随意提交它的任何文章。
除了这个未解决的小插曲,Digg似乎在流量和资金方面做得很好,而且它制定了一些计划。技术团队正在解决基础结构的扩容问题,以应付超出当前流量10倍的更大流量。最新版的Digg包括了一些新类别,囊括了所有新闻类型,而不仅仅是科学和技术新闻,并且增加了一个“Top Digg Users”(顶级Digg用户)功能,帮助您了解Digg网站上最活跃(也因此最有影响力)用户的活动。通过这种类型的跟踪,用户可以轻松查找要添加到朋友列表中的人员,使自己跟上他们的挖掘活动步伐。
类似Digg的网站
del.icio.us
FARK.com
linkfilter.net
reddit.com
Slashdot.org