六度分離 : Six Degrees of Separation

Six degrees of separation is the theory that all of us can be connected to any other person on the planet through a chain of acquaintances that has no more than five intermediaries.

Thursday, June 02, 2005

一個熱門話題的解惑 - Web Mining

出處:http://66.102.7.104/search?q=cache:JY72Rymfq0YJ:letgo.blogchina.com/letgo/1577076.html+Web+Mining&hl=zh-TW&lr=lang_zh-CNlang_zh-TW

Web數據挖掘:將客戶數據轉化為客戶價值。
  Web上有海量的數據信息,怎樣對這些數據進行複雜的應用成了現今數據庫技術的研究熱點。數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。充分利用有用的數據,廢棄虛偽無用的數據,是數據挖掘技術的最重要的應用。相對於Web的數據而言,傳統的數據庫中的數據結構性很強,即其中的數據為完全結構化的數據,而Web上的數據最大特點就是半結構化。所謂半結構化是相對於完全結構化的傳統數據庫的數據而言。顯然,面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要複雜得多。
  

  1.異構數據庫環境 :從數據庫研究的角度出發,Web網站上的信息也可以看作一個數據庫,一個更大、更複雜的數據庫。Web上的每一個站點就是一個數據源,每個數據源都是異構的,因而每一站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。如果想要利用這些數據進行數據挖掘,首先,必須要研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。其次,還要解決Web上的數據查詢問題,因為如果所需的數據不能很有效地得到,對這些數據進行分析、集成、處理就無從談起。
  2.半結構化的數據結構 :Web上的數據與傳統的數據庫中的數據不同,傳統的數據庫都有一定的數據模型,可以根據模型來具體描述特定的數據。而Web上的數據非常複雜,沒有特定的模型描述,每一站點的數據都各自獨立設計,並且數據本身具有自述性和動態可變性。因而,Web上的數據具有一定的結構性,但因自述層次的存在,從而是一種非完全結構化的數據,這也被稱之為半結構化數據。半結構化是Web上數據的最大特點。
  3.解決半結構化的數據源問題 :Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題。解決Web上的異構數據的集成與查詢問題,就必須要有一個模型來清晰地描述Web上的數據。針對Web上的數據半結構化的特點,尋找一個半結構化的數據模型是解決問題的關鍵所在。除了要定義一個半結構化數據模型外,還需要一種半結構化模型抽取技術,即自動地從現有數據中抽取半結構化模型的技術。面向Web的數據挖掘必須以半結構化模型和半結構化數據模型抽取技術為前提。
  
Web正在改變著整個業務領域!業務領域的不斷改變影響著數據挖掘技術,數據挖掘也在不斷地改變著整個業務領域。

  數據挖掘:"數據挖掘"(Data Mining)是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是由於企業數據庫的廣泛使用,存在大量的數據,並且迫切需要從這些數據中獲取有用的信息的知識。獲取的信息和知識有廣泛的應用,例如:商務管理、生產管理、市場控制、市場分析、工程設計和科學探索等。越來越多的IT企業看到了這一誘人的市場,紛紛加入到數據挖掘工具的開發中來,並獲得豐厚的回報。
商業智能
  

  面向Web的數據挖掘是一項複雜的技術,由於Web數據挖掘比單個數據倉庫的挖掘要複雜的多,因而面向Web的數據挖掘成了一個難以解決的問題。而XML的出現為解決Web數據挖掘的難題帶來了機會。由於XML能夠使不同來源的結構化的數據很容易地結合在一起,因而使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決Web數據挖掘難題帶來了希望。XML的擴展性和靈活性允許XML描述不同種類應用軟件中的數據,從而能描述搜集的Web頁中的數據記錄。同時,由於基於XML的數據是自我描述的,數據不需要有內部描述就能被交換和處理。作為表示結構化數據的一個工業標準,XML為組織、軟件開發者、Web站點和終端使用者提供了許多有利條件。相信在以後,隨著XML作為在Web上交換數據的一種標準方式的出現,面向Web的數據挖掘將會變得非常輕鬆。

Wednesday, May 25, 2005

Exploration of the Open Source Software Community

Jin Xu
University of Notre Dame
jxu1@nd.edu
Gregory Madey
University of Notre Dame
gmadey@nd.edu

Abstract
The OSS community can be considered as a complex, self-organizing system. These
systems are typically comprised of large numbers of locally interacting elements.
Developers are main components in this network. The interaction between developers
forms a collaborative social network. Study of the roles of developers and their
activities can help us determine the development of projects. In this paper, we perform a
quantitative analysis of Open Source Software developers by studying the whole
developer community at SourceForge. Our research provides topological and
evolutionary statistics for the OSS developer social network, which is helpful to
understand the OSS phenomenon. Our work shows that OSS developer network is a scale
free network.

Exploration of the Open Source Software CommunityJin Xu, Gregory MadeyThe OSS movement is a phenomenon that challenges many traditional theories in economics, softwareengineering, business strategy, and IT management. The OSS community has developed a substantialamount of the infrastructure of the Internet, and has several outstanding technical achievements, includingApache, Perl, Linux, etc. These programs were written, developed, and debugged largely by part timecontributors, who in most cases were not paid for their work, and without the benefit of any traditionalproject management techniques. A research study of how the OSS community functions may help ITplanners make more informed decisions and develop more effective strategies for using OSS software.

The OSS community can be considered as a complex, self-organizing system [Madey 2004]. Thesesystems are typically comprised of large numbers of locally interacting elements. The Open SourceSoftware (OSS) development movement is a classic example of a dynamic social network; it is also aprototype of a complex evolving network. Developers are main components in this network. As shown inFigure 1, many developers may participate in one project. A developer may join many projects. Theinteraction between developers forms a collaborative social network. Study of the roles of developers andtheir activities can help us determine the development of projects.

Some researchers have begun to study OSS developers. Nakakoji et al. [Nakakoji 2002] classify OSScommunity members into deferent roles and study the influences of different members on the OSS systemand the community in three OSS projects. A modified classification is presented by Xu [Xu 2003] toredefine OSS member roles which will be discussed in the next section. Crowston et al. [Crowston 2002]studied the OSS development teams on success factors for distributed work teams. By studying LinuxSoftware Maps (LSMs), Dempsey et al. [Dempsey 2002] analyze the body of all extant LSMs at a Linuxsite to obtain information on the nature of Linux contributions and their contributors. Data miningtechniques were used by Xu et al. to find patterns in the OSS developers’ community [Xu1 2003]. Gao etal. [Gao 2003, Xu2 2003] simulate activities of core developers on SourceForge hosted projects.Figure 1: Developer Social Network, Linked by Joint Project Membership —Cluster of Size 16(This graph is drawn by using UCINet [Ucinet])


Figure 1: Developer Social Network, Linked by Joint Project Membership —Cluster of Size 16(This graph is drawn by using UCINet [Ucinet])

All of these previous studies are either qualitative classifications or are performed on a small set ofsample projects. In this paper, we perform a quantitative analysis of Open Source Software developers bystudying the whole developer community at SourceForge. Our research provides topological andevolutionary statistics for the OSS developer social network, which is helpful to understand the OSSphenomenon. The work in this paper is the preliminary stage of our OSS community study. Based on thesestatistic data, we will develop agent-based models to simulate the development of the OSS community.

The rest of this paper is organized as follows: the next section describes the properties of OSSdeveloper network; the third section classifies roles of developers by their activities in projects; Then, datacollection and mining process are presented; Based on the collected data, statistic analysis is performed onthe SourceForge developer community; lastly, conclusions and future work are given.

OSS Developer NetworkThe OSS developer network is a scale free network whose degree distribution follows a power law.According to Barabasi and Albert [Barabasi 1999], such a network possesses two properties:

Unlike random networks which have a fixed number of nodes that are randomly connected, thenetwork grows by the sequential addition of new nodes. In our OSS developer network, with thedevelopment of projects, developers sequentially join in projects.

Unlike random networks in which the probability of two nodes being connected is independent ofthe nodes’ degree, there exists “richer gets richer” phenomenon in scale free networks. Theprobability of two nodes being connected is related to the nodes' degree, which is calledpreferential attachment. In OSS, developers tend to choose more popular projects to participate.

Analysis of the SourceForge Developer CommunityWe classified developer roles in SourceForge as follows: project leaders are administrators in eachproject; core developers are members who control CVS releases and are listed in each project; codevelopers(central and peripheral developers) are people who are assigned to tasks such as bug fixing anddocument writing, but are not listed as project leaders and core developers; active users are those whosubmit requests and post messages, but are not included in project leaders, core developers and codevelopers;passive users are gotten by excluding all developers from all users. Figure 3 shows thedistribution of developers in the whole SourceForge community. About 65% of the community is passiveusers who have no direct contributions to the development of projects. Among developers, there are 28.4%project leaders, 15.5% core developers, 33.9% central/peripheral developers and 22.2% active users. Weobserved that the central/peripheral developers have almost the same percentage as the sum of projectleaders and core developers. This is because a large portion of projects on SourceForge are not so popularthat almost all developers are initiators. (Detailed analysis of specific projects is under investigation.)


Figure 3: Distribution of SourceForge Community

Degree distribution is the frequency of the index value throughout the network. Degree distributionwas believed to be a normal distribution, but Albert and Barabasi recently found it fit a power lawdistribution in many real networks [Albert 1999]. Figure 4 gives developer distributions in SourceForgecommunity. The X coordinate is the number of projects in which each developer participated, and the Ycoordinate is the number of developers in the related categories. The right sub-graph shows thedistribution based on the log scale. From the figure, we can observe that the developer distributionmatches the power law. Such power law distribution proves that the SourceForge developer network is ascale free network. In this network, developers sequentially choose more popular projects to join. Thus, apopular project tends to attract more and more developers, while less popular project sometimes can noteven survive after a while. (More results will be presented during the conference.)


Figure 4: Degree Distribution of Developers

ConclusionsIn this paper, we classify and study Open Source Software developer network of SourceForge. Thedata collection design and process are described. By gathering data from SourceForge 2003 data dump, weperform a quantitative analysis of OSS developers’ community. Our research provides useful informationto study the development of OSS projects. Future work will focus on the simulation of OSS developernetwork based on the statistic results in this paper.

心得

在這篇文章中提到 OSS 開放源碼組織是一種龐大複雜的自體組織系統,相當於沒有主要的共用工作環境,但卻仍然可以造就大型團隊針對某些方向,設計出功能出色的軟體,其中相當具有代表性的有 Apache, Perl, Linux Kernel, PostgreSQL, 他們的組織可以說是呈現了某種共同社會網路的合作型態,類似宗教團體一般,人數越多,就有可能造就越特殊的成果,事實上存在著無尺度網路的現象,作者認為若能了解其中的結構,那麼對於我們開發大規模的專案會許多決策面的幫助,當然,在這其中,也有許多地方是我想去了解的,特別是在於這麼多人究竟是如何協同運作的。

OSS 為什麼會呈現無尺度網路的分部,卻非隨機網路的分布型態,是由於,在 SourceForge 上,假設一個專案開出來時,會加入的開發者,大概都是對於這方面有相當興趣的人,當然,若這個主題越熱門,會吸引到的人相當於越多,所以並非是隨機分布的型態,另外一點,使用這個專案軟體的使用者,會對發生的問題作回報,或者是在 mailing list 成為討論串,這不但讓軟體找到了更好的方向,也增加了使用者之間的一種廣告效應。

OSS 之所以能有這些成就,當然有許多的軟體輔助是必然的,例如 CVS ,他對於工作分配,以及後續的軟體維護追蹤升級等,都有良好的辦法可以支持,而且,即使是 CVS 本身佔有率,似乎也呈現著無尺度網路的分布效應。

普及數位文化的網格年代

人們把計算機的普及劃分為Net、Web和Grid三個時代。如圖2所示,縱座標p為普及指數(pervasive index),代表參加聯網的計算機總數與人口總數之比。

在互聯網誕生初期的Net時期,網路僅僅作為科學家之間的一種聯絡工具,聯繫數量不多的計算機。這個時期平均每一萬人才有一台計算機,p值小於萬分之一。 九十年代之後,Web的應用開始了網路的公眾認可期,萬維網作為搜尋資訊的文化工具,採用一對多的client/server結構,p值躍升到0.01至 0.1。2005年之後,將逐漸進入廣泛應用計算機的Grid(網格)時代,目標是全人口透過計算機共用資訊,採用pervasive/Grid結構,計 算機成為一種遍及化的工具,聯網的計算機總數將接近甚至超過人口總數,p接近或超過1。

無尺度現象的發現,使人們認識資訊共用與物質共用存在本質差異,認識到普及數位文化不應該像今天這樣艱難,為網格理想的早日實現堅定了信心。
下面我們將進一步閘明,放棄僅僅依靠IP協議的單邊主義思維,不難發現:衛星數位廣播就是一種不限使用人數、滿足scale free要求的技術手段,利用中間緩存環節,對最終用戶構成雙向互動的機制,就可以形成“規模無上限”的個性化服務網格。

心得
網路世界帶來了某種資訊無限共享的特質,也因為如此,所以形成無尺度網路的要素之一,由於一台 Server 能夠提供多少 IP 連線,主要是受限於硬體設備或網路設備,但如今這些的外在限制逐漸變少了,硬體的話現今已大量採用叢集式架構,而頻寬的部份這篇文章有提到衛星廣播的技術,未來還有許多技術會轉換,另外 802.11 的技術也正在日益普及中,若許多主要城市都擁有無線網路覆蓋,我猜想也許不只有更多使用者可以享用其中的便利性,甚至各種公用設備,都有可能提供無線的技術,例如,可以跟全球通步化的無線時鐘,或者是某條道路上汽車的負載量等等,屆時增幅的比例也許會比現在更大也說不定。

Saturday, May 21, 2005

萬維網演化為無尺度網路

萬維網演化為無尺度網路 作者: 中國工程院院士 李幼平
網路改變了文化傳播,大家已經談了很多。今天,我們從無尺度現象談起,討論文化對網路的反作用。
十幾年之前,web服務進入互聯網,開始了網路的文化應用。正是從那個時候起,互聯網的網站與網民才開始快速增長,網路才有興旺發達的今天。這是人類的文化活動影響網路的第一種反作用。
第二種反作用鮮為人知。最近幾年,美國科學家A.L.Barabasi等人用統計物理學的實驗方法發現,文化活動悄悄改變著網路運作的數學模型,由原先正態分佈的隨機模型轉變為冪次分佈的無尺度模型。
“無尺度”是什麼意思?這裡需要做一點解釋。原來,理論家把龐大複雜的網路,分解為“節點”(node)和“連接”(link)兩大要素。提供內容的網站和接受內容的網民統稱為“節點”,內容在節點間的運動稱為“連接”。一個網站的社會作用或文化地位,可以用該網站與外界的連接數k來衡量。如果某個網站很長時間也沒有人來連接,表明網站的社會影響不大,文化地位不高;反過來,如果連接頻繁,作用就大,地位就高。
網民對網站的訪問,可以說是獨立、自由的,完全取決於網民本人的主觀意願。在做大量統計實驗之前,科學家預測,連接數k應當服從泊松分佈或正態分佈,即每個網站的被訪問量差異不會太大,就像人類身高差異不會太大那樣。然而,實測結果推翻了這個預測。Barabasi等人設計了一種軟體,可以從一個節點跳到另一節點,收集並記錄網上的所有連接。在對幾十萬個節點進行統計之後,發現了令人驚異的結果:當絕大多數網站的連接數很少的情況下,卻有極少數網站擁有高於普通網站百倍、千倍甚至萬倍的連接數。就像在茫茫人海中突然發現若干身高數百尺巨人那樣,令人意外。巨人的身高之大,已不能用普通人高度的尺度來度量,於是想出了“無尺度”的用詞,形容少數節點連接數大大超出普通節點的現象。
上述實驗結果可以用冪次定律表達:出現連接數為k的概率 p(k),反比於k的n次方。其中,n稱為冪數,它是很接近於2的一個常數。
冪次定律告訴我們,儘管萬維網提供內容的網站很多很多,網頁更是天文數位,但是,有能力長時間吸引眾多網民大量訪問的網站,為數非常有限。我們用連接數作判據,可以把少數對社會貢獻特別大的熱門網站從茫茫無邊的資訊海洋中分離出來。
統計物理學家習慣於把服從冪律分佈的現象稱為無尺度現象。也就是說,人類的文化活動已使萬維網演化成為無尺度網路(scale free network)。
我們在實際網路中看到的現象正是如此。儘管中國向網民提供內容的網站有六十萬個,但是,其中只有為數不多的網站,才擁有網民一次訪問難以窮盡的豐富內容,擁有接納許多人同時訪問的足夠帶寬,有條件演化成熱門網站。擁有大連接數的熱門網站,除了新浪、Google、Yahoo等門戶網站外,就是己經上網的報紙、期刊、通訊社、電臺之類的專業“網路傳媒”。在某種意義上可以說,正是網路傳媒的客觀存在,影響了網路運作的數學模型。
無尺度現象不僅僅出現在萬維網中,在神經網路、細胞網路甚至人際網路中均有體現。可以說,凡有生命的地方,有進化、有競爭的地方都有不同程度的體現。社會學家所說的“馬太效應”,《新約》聖經所說“凡有的,還要加給他,叫他有餘”,同無尺度現象也有某種相通之處。

無尺度現象的資訊學意義
無尺度現象的成因,可以從多種角度解釋。
Barabasi等人解釋,優先連接性和網路的成長性是兩個起因。所謂成長性指網民網頁急劇增加,優先連接性指新網民總是優先選擇前人經常訪問的網站。隨著時間的演進,某些熱門的網站愈加熱門,不知名的網站愈加冷門。計算機倣真可以演示驗證,萬維網如何由相對均衡分佈的隨機網路逐漸演化為極不均衡分佈的無尺度網路。
哲學家解釋:存在決定意識。某人選擇連接某一網站,雖然是一種個人意識。但人類生活在同一地球上,相同或者相似的客觀境遇,使得人群中有相同或相似的個人意識。大量的統計,把深藏於個性中的共性強烈地反應出來了。充分的自由民主,在一定條件下,有可能轉化為高度的集中統一,是“對立統一”的例證,一點也不值得奇怪。以DNA作例子,DNA雖然是個性的標誌,但人與人之間的碼元,99%以上是相同的,說明個性中潛在共性。
無尺度現象給資訊科技工作者帶來很多啟示。
首先,讓大家認識到,資訊社會同時兼有“大世界”與“小世界”兩種屬性。一方面,網民、網頁、帶寬隨時間快速成長,使得萬維網成為名符其實的全球範圍內的巨大網羅(world wide web)。另一方面,每個人一天之內所能接受的資訊,受到生理帶寬與生理精力的限制,又是一個不隨時間變化的小世界。大世界與小世界之間,技術世界同“以人為本”的人文世界之間,存在明顯的差異與矛盾。矛盾的主要方面在用戶端。用戶感覺到,數十萬網站和數百億網頁,猶如“資訊孤島”,實在難以分別直接面對。他們希望能出現一種承大啟小的“中間代理”,用戶很容易對這個統一的中間代理表達自己的需求,有興趣的內容又會透過中間代理主動地流入自己的家中。“中間代理”是什麼?它正是無尺度現象所指出的、由熱門網站構成群體。由數百或數千資源構成的熱門群體,是網民透過民主的方法由大家“選舉”出來的,是人類文明進程的自然產物,值得我們倍加珍惜。
無尺度現象還從理論層次啟發資訊工作者:資訊共用和物質共用存在本質差異。資訊共用的本質,是信源母體不限數量(scale free)的複製(copy);物質共用的本質,只是資源母體有限量的瓜分(share)。
這是人類對資訊共用認識上的一次突破。在此之前,人類習慣於用“資訊公路”比喻網路中的資訊共用。皆然是公路,“車多路堵、人多網堵”便是不可避免的。好像限制享用的人數是天經地義的。當前不少專家仍舊認為,要增加享用人數,除了帶寬化,就沒有別的出路了。帶寬是一種物質性資源,服從總量守衡,分給了你,別人可能就沒有了。不管怎麼配,享用的人數總是有限。我們認為,必須用科學的語言,揭示“資訊高速公路”比喻的局限性。在2003年第五期《SCIENTIFIC AMERRICAN》發表的Barabasi等人的著名論文中,就用圖1美國高速公路和航空運輸的圖形差異,來說明隨機網路與無尺度網路的差異。

心得:
科學家和工程師的任務是不斷從客觀現象中找出規律,讓人類與客觀世界和諧相處。作者從人類文化活動對網路產生的反作用講起,介紹了萬維網中的無尺度現象,闡述了利用衛星廣播與鏡象收存實現文化網格的理想,並且延伸開去,得出看法:網路不僅是個人和個人交流的工具,也是個人與社會之間的文化媒介。本文最後的結論是:網路改變了人類的文化活動,文化活動也改變了網路。正作用和反作用,一推一挽,推動人類文明的車輪滾滾向前。“當代資訊產業已不再是單純的資訊技術產業,而是資訊技術與資訊文化產業的統一”。政治家和科學家從不同的角度出發,得出幾乎相同的判斷。

Internet Plagues Spread Rapidly

Internet Plagues Spread Rapidly
If there's an outbreak of the flu in your city, you can count on the Centers for Disease Control for help, but if it's the "I Love You" bug, forget it. That's because viruses spread differently on the internet than they do in the real world, according to a paper in the 2 April PRL. While a biological disease can only spread from person to person, a digital virus can reach many computers simultaneously from a single server. This difference in transmission makes computer viruses all but impossible to eliminate, according to the authors, but the models they describe may lead to better strategies for protecting the electronic world.
Normally, the prevalence of a disease depends upon its spreading rate relative to the epidemic threshold of a population. If the disease can spread at a rate above that threshold, it will survive, but if it cannot, it will die out. The flu spreads easily enough to keep a significant percentage of Americans constantly infected, but salmonella, transmitted solely through contaminated meat, exists only in isolated outbreaks.
Computer viruses don't act this way; they can persist at nearly undetectable levels for very long periods of time without dying out entirely. This unusual behavior makes internet outbreaks difficult to predict and control. Romulado Pastor-Satorras of the Catalonian Polytechnic University in Spain and Alessandro Vespignani of the Abdus Salam International Center for Theoretical Physics in Italy suggest a new model that explains how computer viruses survive.
In traditional epidemic models, each human has a small, fixed number of connections to others, according to Pastor-Satorras. But on the internet, desktop PC's have only one connection, while large government servers have many. So Pastor-Satorras and Vespignani varied the number of connections held by each computer, to better mimic the virtual world, where PCs, local network hubs, and large routers have radically different levels of connectivity.
Their findings, which match trends in data collected by a computer virus tracking organization, were surprising. A virus can spread so easily inside the highly connected internet that there is no threshold below which it will die out. This model also makes an unsettling prediction: A long-forgotten virus hidden in a poorly connected PC can suddenly reemerge if it reaches a major server.
"These kinds of simulation models can tell us interesting things," says Mark Newman, an expert in complex systems at the Santa Fe Institute. But, Newman adds, they are only a rough approximation of how the internet really works. Still, Pastor-Satorras and Vespignani believe their model provides new insight into how computer viruses spread, and they are now working on immunization techniques that they hope will keep the digital world safe from virtual scourges.
Geoff Brumfiel
來源網址: http://focus.aps.org/story/v7/st15
心得:
過去科學家錯認電腦病毒以類似生物病毒的方式散佈。然而網際網路結構上的弱點導致電腦病毒傳染並不像生物病毒傳播一樣必須超過一個最低門檻數目,此現象會讓網路非常容易遭受病毒的攻擊。
受病毒感染的個體數目要超過一個最低門檻,否則病毒會自然的消失;然而將此模式應用於無尺度(scale-free)的電腦網路,發現要產生傳染的最低門檻數目並不存在,電腦病毒即使以非常緩慢的速度傳播,在網路上依然可以倖存。
原因在於電腦網路屬於無尺度的網路結構,在這種網路結構裡面的許多節點,其與其他節點的連結數目並不具有一個平均值,不若格狀網路結構,每個節點都與周遭四個節點連結,至於隨意式(random) 網路結構裡的所有節點,雖然可以任意連結,但仍能以統計方式計算出節點的平均連結值,隨意式網路的節點其節點連結數目會大於平均連結值的機會很低。
無尺度網路中的部份節點,會以較高的數目進行連結,大部分的節點則只以低數目連結,﹝例如學校某個研究室內的電腦只與一部電腦連接,而電腦中心一部伺服器主機則連接了近百部電腦﹞,而且遠端節點之間具有許多的捷徑,所以相距甚遠的電子郵件伺服器憑著幾個跳躍就完成連接,由於上述的電腦網路結構特徵,讓網路非常容易遭受病毒的攻擊。

ICE M2M Power 風暴特刊: 訊息供應鏈 Message Supply Chain ─ 架構

.艾揚即時訊息技術電子週報 <>.
第 7 期 2003.02.11
ICE M2M Power 風暴特刊: 訊息供應鏈 Message Supply Chain ─ 架構
[編輯手扎] ICE Messaging Editor's Note 郭漢丞
進入網際網路的時代,資訊的取得越來越迅速,您應該也能感同身受,但是回到您的企業與產業應用看看,生產資訊即時化了嗎?產銷資訊即時化了嗎?您可以取得此時此刻生產線上或應用現場 (Field) 的數據報表嗎?或者您在網際網路資訊快速交換的時代,仍舊安於使用前一天整理的過時報表,而不會懷疑目前生產線上的進度是否無法趕上船期?
如果您是生產事業的資訊長,過去十年來您可能致力於建立生產線上自動化,並且已經成功地建構了以區域網路 (LAN) 為骨幹的生產自動化系統。但面對網際網路的時代,您的企業網路系統已經做好要延伸拓展的準備了嗎?在區域網路內部,頻寬不是問題,即時性也許也不是問題,但是在全球化的趨勢下,如何將生產、銷售、與通路完整結合,必須仰賴快速而精準的即時訊息傳遞系統,將每一個資訊處理的環節串聯起來,您才能夠把各自獨立的資料庫系統聯合成為一個企業資訊的有機體,把遠距分散的眾多資訊處理點即時串接,建立訊息供應鏈,您的企業資訊系統才能夠面對現在與未來五年的國際競爭。
訊息供應鏈是針對企業資訊「訊暢其流」應運而生的架構觀念,是要讓企業以現行主流的 TCP/IP 通訊做基礎,善用所有的電信線路,有效地串聯內、外所有的資訊流通。以訊息傳遞為基礎,把企業最關鍵的人、事、物緊密地結合在一起,提供企業七天/二十四小時永不停頓的運作動力。
如何建立企業與產業應用的訊息供應鏈?從本期開始,我們將從架構、應用、與實作三個面向,為您深入剖析競爭動力全面提昇的新世代即時訊息工程架構
訊息供應鏈 ─ 架構
訊息傳遞的需求並非始於今日,但對遠距、即時、與多點的要求,要能同時符合這三者,是對傳統資訊系統的嚴苛挑戰。其原因即在伴隨網路時代而來的資訊先集中化而後分散化,或謂先擷取 (Acquisition) 而後傳遞 (Distribution) 資訊的需求。
甚麼是「資訊先擷取而後傳遞」呢?
我們先來看一個可以類比的對象:在製造業的上、中、下游,包含了採購 (Procurement)、生產 (Production)、運籌 (Logistic)、與訂單達成 (Fulfillment) 等重點,於焉形成 Supply Chain (供應鏈) 一連串緊扣的流程,進而結合理論、實務、與資訊應用,而成 Supply Chain Management (SCM) 此一科別。在 SCM裡,管理的對象為物、事、人。
同樣的,在訊息的世界裡,也是有其供應鏈的模式呈現,也是有其必須被管理的標的存在。
從訊息供應鏈 (Message Supply Chain) 的上游出發時,可能是最原始的訊息,或是經高低程度不一的加工訊息,循著既定的路線,到達訊息匯流處 (中游)。在這裡,訊息可以加上各種所需的商業邏輯,或是很單純地,直接被發派到下游。這樣,有幾個訊息供應鏈的特點,必須先被歸納起來:
訊息供應鏈,是由遠距、即時、與多點這三個產業需求拱架起來的。
訊息供應鏈的骨架,是 TCP/IP 通訊協定。
訊息在供應鏈的上、中、下游,都可視需要進行加工處理。
訊息供應鏈通常呈啞鈴狀,即上游 (訊息生產者) 與下游 (訊息消費者) 的節點數量,通常高過中游匯流處理機制的數量。
訊息供應鏈的管理標的,也是物、事、人。其中物即是訊息,事即是商業邏輯,人即是使用者。
訊息供應鏈的上、中、下游,即是資訊先擷取而後傳遞的呈現。
遠距的訊息供應鏈
回想製造業的供應鏈管理,需求始自於資訊電子產業在全球分工的架構下,追求成品與半成品庫存天數的終極降低。因為全球化,所以從原物料的採購、生產的基地、到運籌達交的地點,可能都是跨洲、跨國、跨區的串聯作業。
訊息供應鏈對應用涵括地理區域的要求,推到極致,即是全球皆可連結觸及的網際網路。Internet 以 TCP/IP 通訊協定為基礎,從國防、學術研究出發,現在則變成是商業運作,甚至是民生上不可缺乏的一環,是人類史上,最大型的一個公眾通訊數位網路。
為了安全性的考量,有些應用系統選擇不跟公眾的網際網路搭上線,代之以私有的網路,如 VPN (企業私有網路) 或是 VAN (加值型封閉網路),但卻還是取 TCP/IP 做為其內的通訊協定標準。因為,這樣才可以善用 (Leverage) 已經在 Internet 上發展出的技術與應用,豐富私有網路的服務內容。
所以,無論是公眾還是私有網路,TCP/IP 成為各種遠距跨區應用唯一的通訊標準主流地位,已經無庸置疑。遠距應用的訊息供應鏈,必須支援 TCP/IP,自不待言。
訊息供應鏈的上游、中游、與下游各點,可以個別被部署散置在廣大的地理區域中,只要是 TCP/IP 可以伸展到達的地方,就可接軌上訊息供應鏈,加入訊息運籌的行列。
因此,若要問遠距的範籌該如何描繪,再觀察一下支援 TCP/IP 通訊的電信技術發展,就會發現,現在已經足可供企業充分規劃伸展了。
從有線的窄頻 PSTN,寬頻 Leased Line、xDSL、Cable Modem、Fiber,到無線的 GSM、GPRS、3G、PHS、Wireless LAN,可讓訊息供應鏈各節點綜合部署規劃的線路型態 (Carrier Type),已經相當地豐富。技術上沒問題,只剩線上成本的適足性考量。
即時的訊息供應鏈
關於訊息即時性 (Real-time) 的意義與價值,我們已經在前面三期的電子週報充分地闡釋了。擷取其精華,不過下面數句:
絕對的即時,是時間性要求的數值,是要問出:「你的訊息一秒更新幾次?」;相對的即時,是商業價值的轉換,是在時間價值上,有沒有辦法趕上應用的最低要求,也就是要問:「有沒有必要這麼快?」。
每一種產業的訊息供應鏈,都必須針對應用的即時性,提供絕對與相對的分析,並在上、中、下游,對物、事、人,都有確切的答案。
我們充分了解,有許多的產業應用,過去並未紮實地形成訊息供應鏈的資訊系統觀,也未能善用專長為訊暢其流的新世代訊息中介軟體,所以大量使用資料庫來勉力達成應用對即時性的要求,或是因而犧牲追求更卓越即時性的權利。
現在再加上遠距需求的挑戰,應用擘畫者有了清楚的訊息供應鏈系統觀,搭配新世代的即時鉅量訊息匯流處理平台 ─ iPush® Server,再嚴苛的即時性要求,都可輕鬆應付。
多點的訊息供應鏈
訊息供應鏈通常呈啞鈴狀,即上游 (訊息生產者) 與下游 (訊息消費者) 的節點數量,通常高過中游匯流處理機制的數量。在許多應用案例中,上游對中樞匯流處,或是下游對中樞匯流處的數量比,可以達到 1000:1 ~ 10000:1 的等級。
訊息供應鏈的多點,其豐富性,不只表現在數量上,更表現在多樣化上。
多點的”點”,可能來自傳統的 RS-232、RS-422、RS-485、CNC、PLC 串列設備,或是類比偵測儀器,這些單向或是雙向的訊息觸點,透過適當的轉換,都可與 Ethernet - TCP/IP 網路串聯,與訊息供應鏈接軌,成為訊息運籌的一環。
多點的”點”,也可能是網路原生的資訊設備與軟體,如以 Windows 系列為作業系統的 PC、Notebook、Pocket PC、Smart Phone,或是執行 JVM 的 PDA、Java Phone;而軟體可能是客製的 Windows 應用程式,或是以瀏覽器為執行環境的 Web 應用程式。通常,這些端點的運作,都有使用者 (人) 在其中,所以具備人機介面 (HMI, Human-Machine Interface),可作為監視與控制,甚至是決策支援的地方。稱它們為網路原生,是因為這些資訊設備,都已經內建 TCP/IP 的支援,所以天生就是訊息供應鏈的一環。
來自傳統的 RS-232、RS-422、RS-485 串列設備,或是類比偵測儀器,這些單向或是雙向的訊息觸點,透過適當的轉換,都可與 Ethernet - TCP/IP 網路串聯,與訊息供應鏈接軌,成為訊息運籌的一環。
使用低耦合性的訊息中介軟體作為訊息供應鏈的實作主體,將使得以上傳統串列設備與網路原生資訊設備,各點可以隨時加入系統,也可以隨時離開系統,系統都將持續運作。
訊息供應鏈的強固性
Robustness,強固性,這是在資訊科技領域中,常被用來描述一個系統強健堅固程度很高的字眼。也就是說,面對許多會造成運作不正常,甚或癱瘓的環境,系統本身必須具備一定程度的容錯能力、抵禦能力、或是續航能力。
遠距分散部署下的系統強固性,對產業應用而言,是一個嚴苛的挑戰。公眾或私有遠距網路環境充滿變數,原本採同步程式設計 (Synchronous Programming),高耦合性 (Tightly-coupled) 的資料庫存取、RPC 遠端程序呼叫 (DCOM、CORBA、Remote Method Invocation),這類的系統設計都顯得異常脆弱,強固性低。
反觀導入具非同步程式設計 (Asynchronous Programming),低耦合性 (Loosely-coupled) 特性的訊息中介軟體,整個系統將以原生 (Native)、天然 (Natural) 的方式,來面對遠距分散網路線上的多變,有效提高其強固性。
我們用一個模擬的案例來進行強固性的說明。將訊息供應鏈部署在一個具有 Center (中心) 與 Field (現場) 的遠距應用環境中,有三個現場 (想像它們分別被部署在台灣的中、南、東部),一個中心 (想像其被部署在台北)。這四個區域 (三個現場一個中心),各有一套 iPush® Server 擔任個別區域的即時訊息交換平台,以及進行現場與中心的串聯,以進行跨區域的即時訊息交換。

心得:
訊息供應鏈是產業資訊擷取與傳遞的最佳答案:由遠距、即時、與多點這三個需求拱架起來的訊息供應鏈,是許多產業應用向前推進時,面對大量系統資訊生產、流動、加工、消費挑戰時,擷取與傳遞總合的最佳答案。而有如 iPush® Server 這樣的產品居中整流,整個訊息供應鏈的強固性與彈性,將可供產業各類的 Field-to-Center 與 Center-to-Center 應用,妥適地規劃。這是產業增加競爭力,可善加利用的一股向上提昇力量,是一種解決方案。
而所謂的M2M 泛指機器對機器 (Machine-to-Machine)、人對機器(Man-to-Machine)、機器對人 (Machine-to-Man)、與人對人 (Man-to-Man) 之間的關係。M2M Solution 可以透過 PSTN、LAN、 WAN、或 Wireless,建立一套溝通 M2M 關係的解決方案,達成企業即時溝通無障礙的目標。
在這個業界的競爭與比較,首當其衝的,就是平台可支援的最大同時連線數。數字越大,連線品質卻可維持在一定的水準,產品就越有競爭力;當然相對地,產品的規模及架構也會相對的龐大與複雜。以現今網際網路的發展速度來看,各種應用將來的線上人口是難以預期的,而訊息中介軟體架構,亦須朝向應付無限連線數量的方向來開發設計。

Thursday, May 12, 2005

部落格時代來臨 資訊交流將更迅速多元

文章來源:http://heterotopias.org/node/563/trackback

(中央社記者林鼎堯台北二日電)「網誌」、「博客」、「部落格」,不管用哪種譯名稱呼,「blog」這種個人媒體的數量都已在國內外迅速增加,資訊交流因此更加迅速多元,影響力如野火燎原般,一發不可收拾。
自去年下半年起,由於「蕃薯藤」、「無名小站」等熱門網站開始提供免費網路空間供人架設部落格,發表網誌的人暴增,保守估計,台灣應該已有超過十萬個部落格。
部落格的發表形式類似日記,因此也被稱為「網路日誌」,簡稱「網誌」,中國則直接音譯為「博客」。
部落格的架設技術簡單,作者一人擁有一個可發表文字、圖像的平台,還可藉由「迴響」、「引用」和RSS等功能串連,迅速得知其他網誌上的最新圖文,等於同時掌握許多最新報導
因屬個人媒體,每個網誌的特性各有不同。有些作者喜歡發表對生活周遭事物的感覺,有些專門提出對個人喜好事物的評論,也有些想以言論改變社會。
綜合來看,網誌作者的動機相當複雜,但目的大多可歸至一個方向:與人溝通。
曾在蕃薯藤任職的徐子涵,自兩年多年前開始寫部落格後,網路讀者迅速累積,只要在Google搜尋引擎打上「部落格」三個字,總可以在前三頁看到他的網誌。(註:使用Google作關鍵字搜尋時,會依Page Rank排名列出結果,通常越前面的網頁越能代表這個關鍵字。另外,徐子涵由於個人因素,已不再撰寫網誌。)
徐子涵表示,會接觸部落格,一方面是喜歡追最新的東西,一方面是想呼籲大家注重摩托車安全議題,發覺部落格的媒介特性後,就積極實驗、發掘新的訊息傳播模式。
在中國網站資料中,任職台灣某基金會公關人員的黃小黛所寫的部落格在華文世界排名前十名。她說,最初只想用文字吐納生命的感覺,將所感保存在一個固定的位置,而那個地方恰巧是網路而已。
黃小黛說,寫網誌對她的好處在於認識許多被她作品吸引的讀者,由此與人互動,引發更多的感覺。
網誌推廣人士李士傑表示,部落格可使一個人同時不刻意地與許多對象資訊交流,加速溝通過程,促進人與人之間互相了解。
部落格除了是一種全新的個人資訊交流方式外,由於作者、讀者越來越多,網誌輿論力量也隨之增強。
國外的部落格與主流媒體互動頻繁,巴格達的網誌作家曾在美伊戰爭時成為媒體邀稿對象;美國網誌作家的指正,間接造成CBS主播丹拉瑟下台。台灣方面,網誌又將對傳統媒體造成何種影響?
身兼破報總編輯的黃孫權指出,傳統媒體現在要僱用數十位編輯、記者,未來如果網誌作家夠多、寫的東西夠專業,媒體可能僅需一些優秀編輯挑選部落格的稿,每個網誌都可以是一家通訊社。
知名網誌作家、現任中時晚報記者的李怡志對此略有不同看法。他表示,當新聞協同作戰、需要十幾位記者合作採訪時,網誌作家可能會力有未逮,但民眾和媒體從業人員的分界將日益模糊,將有更多媒體以部落格為稿源
報界出身的網誌作家「奶爸」張育章則說,部落格與主流媒體的互動,將使訊息更多元、專業,只是台灣市場不大,可能養不出專業網誌作家
同時擔任中央研究院「數位典藏國家型科技計畫」專案經理的李士傑表示,網誌將在訊息交流方面帶來巨大影響,言論將可迅速導入,知識將可迅速累積,進而紓緩民眾與媒體間的資訊不平等現象


心得:網路世界的發達導致人際間的距離也不像以前一樣近,每個人確有越來越多自己的想法,但有時卻無處發揮,或許是許不到志同道合的傾訴對象,於是助長了這些Blog的發展這道也是一個很好的管道,社會網路裡或許可以找到這些與自己match的朋友,在這樣互相切磋可以將彼此知識快速累積,但擔心的事,網路的言論是自由的沒有根據的,謠言很多,怎麼分辦一定要自己的拿捏好,不要讓網路讓你的知識退化了

Monday, April 25, 2005

網絡新媒體:誰與寬些尺度?

摘錄於 http://republicmedia.org/archives/000223.php

無線攝影器材廠商X10在紐約時報等知名網絡媒體上刊登一種新型態的廣告,跟許多網站上另開窗口的Pop-Up廣告類似,作法卻相反,廣告窗口是開在媒體網頁之「下」,他們稱之為「Pop-Under廣告」。而且這廣告不需要點選(Click)就直接進入(Through)該公司促銷產品的網頁。

問題來了,Pop-Under廣告使網友在渾然不知的情況下直接進入廣告主網頁,如此產生的網頁閱讀或使用者接觸率,該不該被統計在網站流量內?網絡市調公司意見分歧,市場人士看法也大異其趣。

事實上,早在X10之前,由網絡上原先有「垃圾郵件大王」(Spam King)稱號的華萊士(Sanford Wallace)「改邪歸正」之後開設的PassThisOn娛樂網站,已經於2000年初開始採用Pop-Under的廣告手法,使其廣告夥伴JobsOnline在2000年底的個別使用者(Unique Users)數量在Jupiter的統計中成為所有人力網站的龍頭,幾乎是老牌的Monster.com的兩倍。

另一方面,市調公司評量網站的「網友平均停留時間」指標則顯示平均網友待在JobsOnline的時間不過兩分半左右,而Monster的造訪者卻超過20分鐘。誰是人力網站龍頭?就看你從哪個角度去看了。

有人以Pop-Under是色情網站常用行銷手法而表示唾棄,根本是因噎廢食:在他人網站上開個窗口推廣宣傳自己的東西,是提供免費網頁空間的網站主要營收方式,99年初被雅虎購併的地球城市(GeoCities)是其中佼佼者﹔中小型同構型網站互相連結推廣的「網站連環」(Web Ring)也行之多年,最知名的網站連環在98年底被地球城市購併,所以webring.com現在變為webring.yahoo.com。

原來大家Pop的是廣告,現在Pop-Under廣告所Pop的是網站,為什麼網站不能直接當廣告呢?「Pop-Under=Pop+Link+Web Ring」,雅虎也在七月底開始測試這類廣告,想想地球城市與網站連環,倒並不令人意外。

南宋劉克莊(號後村)繼承了辛(棄疾)派詞人的愛國情操與豪放風格,清人馮煦對其評價甚高,說他的詞與辛棄疾、陸游「猶鼎三足」,一闕〈賀新郎〉可以看出他關懷國事的心境,前幾句是:「國脈微如縷!問長纓、何時入手,縛將戎主?未必人間無好漢,誰與寬些尺度?」

網絡產業從雲端跌到谷底,七月的最後一天,當獲選為對台灣PC產業影響最大的十五家廠商中第一名的宏碁,興高采烈參加台灣個人計算機產業發展屆滿二十年的「台灣PC20禮讚」慶典的同時,旗下的acer121網站也悄悄的Pop-Up出佔半個屏幕的「關站公告」,兩相對比,擔憂「網脈微如縷」的人不禁更是心急如焚。

Pop-Under廣告不見得是能夠立刻使網絡廣告生機蓬勃、「縛將戎主」的「入手長纓」﹔但是,如果網絡產業缺乏創新的勇氣、沒有接受新觀念的胸襟,要有起色就更難了!誰說網絡廣告一定要Click之後才可以Through?誰說網絡廣告的網頁閱讀不能計算在網站的流量裡面?看待誰也不知道會如何發展的網絡新媒體,或許我們該用劉後村「未必人間無好漢,誰與寬些尺度?」的觀點,路,也才會更寬廣!


心得:首先,以消費者的角度來看,不希望開一個網頁會跳出廣告,即使只有一兩個也難忍受,所以現今的瀏覽器都會有防廣告跳出的功能,我想這主要是針對使用者需求設計。這篇文章探討的網絡廣告的網頁閱讀不能計算在網站的流量裡面,我想這方面應該是停留時間而定,有些自動跳出的廣告一下子就被我們這些討厭廣告的使用者關掉了,這種使用者是被迫進入此網頁,我們這些人進出網頁的資料,對於網絡市調公司是無用的資料,所以我認為應該要以停留時間作為依據。

Wednesday, April 20, 2005


隨機網路理論有一項重要預測:儘管連結是隨機安置的,但由此形成的網路卻是高度民主的,也就是說,絕大部分節點的連結數目會大致相同。實際上,隨機網路中節點的分佈方式將遵循鐘形的泊松分佈。連接數目比平均數高許多或低許多的節點,都十分罕見。有時隨機網路也稱作指數網路,因為一個節點連接k個其他節點的概率,會隨著k值的增大而呈指數遞減。
Posted by Hello


人們對電力網絡和通信網路的依賴程度日益增高,凸現了一個廣受關注的問題:這些網路到底有多可靠?好消息是複雜網路對意外故障具有很強的承受能力。實際上雖然每時每刻網路上都有數百個路由器失效,但網際網路卻很少因此受到大的影響。生命系統同樣也具有這種強韌性:雖然細胞記憶體在諸如突變和蛋白質出錯等數以千計的錯誤,但人體卻極少因此發生嚴重的後果,這種強韌性的來源是什麼呢? 直覺告訴我們,如果大部分節點發生癱瘓,將不可避免地導致網路的分裂。對隨機網路而言,這是絕對正確的:隨機網路中若有較大部分的節點被去除。網路必然潰散成彼此無法通訊的小型孤島:不過無尺度網路的類比結果,則展現了全然不同的情況:即使從網際網路路由器中隨機選擇的失效節點比例高達80%,剩餘的路由器還是能組成一個完整的集群並保證任意兩個節點間存在通路。要擾亂細抱內的蛋白質交互網路也同樣困難:我們的測量顯示,即使在細胞內隨機製造較高比例的突變,那些沒有改變的蛋白質還是會正常地繼續合作。 總的來說,無尺度網路對意外故障具有驚人的強韌性,這一特性本質上源於這些網路的非同質拓撲結構。隨機去除的方式所破壞的主要是那些不重要的節點,因為它們的數目遠大於集散節點。與那些幾乎連結所有節點的集散節點相此。那些不重要的節點只擁有少量的連結。因而去除它們不會對網路拓撲結構產生重大的影響。但是,對集散節點的依賴,也帶來了一個嚴重問題:面對蓄意攻擊時,網路可能不堪一擊。通過一系列的模擬,我們發現,只要去除少數幾個主要集散節點,就可導致網際網路潰散成孤立無援的小群路由器。類似地,對酵母的實驗也顯示,去除那些高連結性的蛋白質,比去除其他節點更容易導致酵母菌死亡。這些集散節點是決定性的,一旦發生使它們無法運作的突變,極有可能會導致整個細胞死亡。 對集散節點的依賴,視系統的不同,既有利也有弊。對細胞而言,能夠應付隨機出現的意外故障,當然是個大優點。此外,細胞對集散節點的依賴,也給藥物研究者提供了新的方法:有可能找到這樣的藥物,能針對性地攻擊細胞或者細菌的集散節點,以便殺死它們而又不會影響健康的組織。不利的情況也有:少數消息靈通的駭客只要攻擊一些集散節點,就足以搞垮整個通信基礎網路,這正是人們關心的焦點。 無尺度網路的這一致命缺陷,引發了這樣一個問題:到底有多少集散節點是必不可少的?最近的研究表明,總的來說,只要有5-10%的集散節點同時失效,就足以搞垮系統。我們對網際網路的實驗顯示,一次有組織的協同攻擊,只要去除掉若干個集散節點(先去除最大的,再去除次大的,依次類推),就足以造成重大破壞。因此,為了避免因惡意攻擊帶來網路的大規模破壞,最有效的辦法就是保護好集散節點。不過,要想知道特定的網路系統到底有多容易被破壞掉,還有待進一步的研究。例如,如果Genzyme和Genentech這樣的集散節點一起失去作用,是不是美國的生物產業會因此而崩潰呢?
Posted by Hello

Collective dynamics of 'small-world' networks.

Watts DJ, Strogatz SH.Department of Theoretical and Applied Mechanics, Cornell University, Ithaca, New York 14853, USA. djw24@columbia.edu

Networks of coupled dynamical systems have been used to model biological oscillators, Josephson junction arrays, excitable media, neural networks, spatial games, genetic control networks and many other self-organizing systems. Ordinarily, the connection topology is assumed to be either completely regular or completely random. But many biological, technological and social networks lie somewhere between these two extremes. Here we explore simple models of networks that can be tuned through this middle ground: regular networks 'rewired' to introduce increasing amounts of disorder.

We find that these systems can be highly clustered , like regular lattices , yet have small characteristic path lengths, like random graphs. We call them 'small-world' networks,
by analogy with the small-world phenomenon (popularly known as six degrees of separation ).
The neural network of the worm Caenorhabditis elegans , the power grid of the western United States, and the collaboration graph of film actors are shown to be small-world networks.
Models of dynamical systems with small-world coupling display enhanced signal-propagation speed, computational power, and synchronizability . In particular , infectious diseases spread more easily in small-world networks than in regular lattices.PMID: 9623998 [PubMed - indexed for MEDLINE]

Small-world Networks

A recent paper, Collective dynamics of "small-world" networks, by Duncan J. Watts and Steven H. Strogatz, which appeared in Nature volume 393, pp. 440-442 (4 June 1998), has attracted considerable attention.

One can consider two extremes of networks. The first are regular networks, where "nearby" nodes have large numbers of interconnections, but "distant" nodes have few. The second are random networks, where the nodes are connected at random.

Regular networks are highly clustered, i.e., there is a high density of connections between nearby nodes, but have long path lengths, i.e., to go from one distant node to another one must pass through many intermediate nodes.

Random networks are highly un-clustered but have short path lengths. This is because the randomness makes it less likely that nearby nodes will have lots of connections, but introduces more links that connect one part of the network to another.

Watts and Strogatz studied what happens between these two extremes. They started with regular networks and "re-wired" the nodes. That is, they decided whether to leave each edge connecting a pair of nodes in place, or to change it to connect the starting node to a different ending one, chosen at random. This decision was made at random, with probability p for each edge. Thus, if p = 0, the original regular network is unchanged, but if p = 1, the resulting network is completely random.

Their computer experiments indicated that introducing a relatively small number of random connections dramatically changed the character of the graph. That is, for small values of p, the graphs retained their properties of being highly clustered, but the average path lengths dropped dramatically. For eample, for p = .01, (so that only 1% of the edges in the graph have been randomly changed), the "clustering coefficient" is over 95% of what it would be for a regular graph, but the "characteristic path length" is less than 20% of what it would be for a regular graph. They called these new graphs "small-world" networks.

Part of the reason for the interest in their result is that small-world networks seem to be good models for a wide variety of physical situations. They showed that the power grid for the western U.S. (nodes are power stations, and there is an edge joining two nodes if the power stations are joined by high-voltage transmission lines), the neural network of a nematode worm (nodes are neurons and there is an edge joining two nodes if the neurons are joined by a synapse or gap junction), and the Internet Movie Database (nodes are actors and there is an edge joining two nodes if the actors have appeared in the same movie) all have the characteristics (high clustering coefficient but low characteristic path length) of small-world networks.

Intuitively, one can see why small-world networks might provide a good model for a number of situations. For example, people tend to form tight clusters of friends and colleagues (a regular network), but then one person might move from New York to Los Angeles, say, introducing a random edge. The results of Watts and Strogatz then provide an explanation for the empirically observed phenomenon that there often seem to be surprisingly short connections between unrelated people (e.g., you meet a complete stranger on an airplane and soon discover that your sister's best friend went to college with his boss's wife).

Thursday, March 31, 2005

學習的混沌法則

「初始的微小差異可能引起巨大的結果變化」--- 《混沌動力學》

資料來源:http://66.102.7.104/search?q=cache:eIyh-QKyl8sJ:www.isaacmao.com/works/%3F%2525u5B66%2525u4E60%2525u7684%2525u6DF7%2525u6C8C%2525u6CD5%2525u5219+%E7%A4%BE%E6%9C%83%E7%B6%B2%E8%B7%AF%E5%88%86%E6%9E%90&hl=zh-TW

~內文擷取~

說起學習與混沌學有密切關係,很多人可能覺得摸不著頭腦。實際上,學習活動無論從微觀尺度(例如,一次思考)到宏觀尺度(例如,學校教育)都有混沌的潛規則在發揮作用,這些作用甚至可能完全改變一個人的終身軌跡,可能會有巨大的成功,也可能會陷入不可避免的怪圈中。混沌不是「模糊」,更不是「混亂」,混沌中的有序才是今天複雜知識社會的基本形態

微小變化引起巨大的結果差異

先從Doug Wilms 這位世界頂級的兒童發展問題專家的研究說起。他所研究的內容中有很多具體入微的實驗,而結果則顯示了很多人們雖然從道理上明白卻總是模模糊糊的規律。他們發現,人的發展是與軌跡相關聯的。當我們在2歲的時候,可能在不同的氛圍中造成了一些詞彙量的差異,這種差異也許很小,只有150個。但是這種小差異會在15歲的時候放大為10年的差距。最高的程度可以達到大學二年級的認知能力,而最低可能只有5-6年級的水平,中間水平可能分別於兩個極端相差4-6年的程度。這個實驗說明,本來微小的差別可能在隨著時間不斷放大,而且並非以固定的線性方式增加,最終會不斷放大到顯著的差距程度。也就是說,這些微小的差異可能完全導致兩個人的人生軌跡產生巨大的反差。


從以上的實驗和規律中可以產生一些最基本的思考:

  • 在混沌學的理論中,我們知道「初始條件」是非常重要的。
  • 為了給四個月大小的嬰兒閱讀,你必須要抱好嬰兒。研究表明,撫摸是另一種發展的驅動力。對於孤兒來說最缺少的就是撫摸。所以對嬰兒進行閱讀可以出發兩個驅動力:詞彙表和撫摸。
  • 發展的最顯著變化並非來自於學校(這也是國外發起UnSchooling運動的原因),更多是來自於6歲之前最佳時間。嬰兒和兒童的學習通常只有一條路徑--- 從玩中體驗,這與我們在學校的講課方式正好相反。

這些思考是研究學習活動中借助混沌學的一些基本結論,實際上我們越來越認識到,學習過程遠非一條詞彙發展的軌跡那樣簡單每個人的多方面的智力、情感、技能等各領域的發展無時無刻不處於一種複雜的多因素動態過程中。想找到每個人發展的線性方程顯然是不可能的,這是一個非線性的混沌現象

大腦的混沌規律

頭腦中的大量信息處理過程本身是不確定的一個過程,每一個選擇都幾乎是大量神經元獨立判斷選擇後的一個匯總結果。即使在完全沒有干擾的情況下,任何人也很難在兩次表達一個類似的意思時,應用完全相同的句子。這也正說明了大腦中的每次思考和決策都是不確定的。當我們學習的時候,實際上是重新讓這些神經元建立對知識的新結構模型,而如果很快地讓這些模型重新應用起來,則必然有助於達到學習效果。

教育體系的混沌範式

在以往的教育體系研究中,人們往往或只研究宏觀的教育法規或政策,或只研究微觀的教學和課堂活動。宏觀的研究把教育當作一個社會系統,很少解釋和個體在系統中的角色,甚至不會考慮教育理論等因素。而微觀的研究雖然考慮了很多實際的情況,卻往往因為思考範圍的限制而影響了整體性。近年來的教育研究中開始出現一種綜合宏觀微觀維度研究的新方法,而其出發點就是混沌理論。

學習的混沌法則也會影響學校的教育指導思想。在學校中,學生確實可以跟隨教育體制的安排參與學習活動,但是學生的人格、學習風格、做事態度都不是今天的學校可以完善的。學生每天的發展軌跡變化部分可能來自於學校、周圍的同伴,還有很多來自於家庭、公眾媒體,甚至來自從學校到家庭的路上所見所聞。學校校門之外的超市、商灘、遊戲廳和網吧都可能是影響學生每天微小變化的外界因素。而學校能夠提供的則仍然是缺少個性的知識填充教學方式,有限的積極影響甚至不如學校周圍的社會環境的消極影響。這也是近年來學校的教育功能收到質疑的主要原因。

學習的混沌法則

社會越來越複雜,多樣性越來越明顯,個性化越來越突出,國際化越來越普及,而同時信息技術越來越發達。與此同時,混沌法則也會越來越顯現其效力。在二十年前,社會的規則非常簡單,人們的學習、工作、生活顯然都有很強烈的「固定」軌跡。而今天,社會的複雜性已經截然不同,只有成為合格的終身學習者才能夠有機會進入優勢軌道,讓自己的發展適應社會的變化需要,也同時能夠達到理想的精神世界。

學習的混沌法則自然會指向一個學習效率和有效性的問題。所以作為終身學習者,必須要理解和掌握一些基於混沌法則的學習技能。每個人都會建立自己的學習模式,這些模式之間是有差別的,不但包含了智力因素、習慣因素,還有一些情感因素(例如,好奇心、價值觀等)。如果能夠在學習活動中把握了這些因素細微之處的重要性,則必然會達到疊加發展的效果,讓自己的軌跡變成優勢曲線:

  • 分形的時間:時間雖然對每個人都是公平的,但是對不同人時間的分形程度是不一樣的。
  • 信息工具:良好的信息素養不僅僅是幫助你整理信息和數據,還會延伸你的行為線程,這類似最先進電腦CPU的多線程能力。很多工作可以通過電腦裡面的新型工具自動完成,而同時你有可能做更多需要親歷親為的工作。善於應用如Google這樣的搜索引擎,也被一些教育研究者證明有如學會查詞典一樣重要。
  • 社會網絡:社會網絡是每個人的終身資產,每個人在每個發展階段都需要自己的導師(Mentor)和可以真心交流的朋友圈子。這個網絡需要經營和不斷擴展,並真正發揮其知識價值。最近網絡上出現的很多社會性軟件(Social Software)都在探尋幫助人們充分利用社會網絡的知識價值。而著名的e-Learning專家Jay Cross更是直接指出了e-Learning 的實質就是優化個人的所有網絡(大腦網絡、知識網絡、社會網絡)和它們之間的互聯。個人的社會網絡無疑能夠改善一個學習者的發展軌跡,激發其中的混沌效應。對處於發展期的兒童來說,一個名人對他的一句鼓勵的話語也許就能讓其徹底改變學習的態度,或者樹立更高的目標,這樣的效應是不能忽視的。

還有一個我們正在緊密觀察的社會現象也需要終身學習者加以重視,那就是近一年來在國內也逐步流行起來的Weblog(簡稱Blog)這種新型的網絡出版形式。它能夠幫助人們更及時地整理自己的知識,也會鼓勵學習者不斷進行反思,不但可以加深大腦活動的混沌程度,而且會直接幫助學習者(尤其是兒童)改善閱讀和語言、文字表達能力,還可以建立一種協作性的對話學習方式

從混沌的規律中我們可以認識到,粗簡的知識灌輸並不會引起混沌的發生,即使是冠以遠程教育、在線教育等名頭也不能改變其實質,頂多只是一種知識的直線積累。這也就是為什麼電腦有那麼大的存儲能力,卻仍然無法與人類的思維活動相媲美的原因(雖然克茲維爾正在努力創造更高級的機器智能,但他也承認機器很大時間內與人類的思維仍然有很大距離)。
By 李岳峰