<?xml version='1.0' encoding='UTF-8'?><?xml-stylesheet href="http://www.blogger.com/styles/atom.css" type="text/css"?><feed xmlns='http://www.w3.org/2005/Atom' xmlns:openSearch='http://a9.com/-/spec/opensearchrss/1.0/' xmlns:georss='http://www.georss.org/georss' xmlns:gd='http://schemas.google.com/g/2005' xmlns:thr='http://purl.org/syndication/thread/1.0'><id>tag:blogger.com,1999:blog-9797373</id><updated>2011-07-15T05:25:25.912+08:00</updated><title type='text'>六度分離 ： Six Degrees of Separation</title><subtitle type='html'>Six degrees of separation is the theory that all of us can be connected to any other person on the planet through a chain of acquaintances that has no more than five intermediaries.</subtitle><link rel='http://schemas.google.com/g/2005#feed' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/posts/default'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default?max-results=100'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/'/><link rel='hub' href='http://pubsubhubbub.appspot.com/'/><author><name>林盈谷</name><uri>http://www.blogger.com/profile/17993201709814773112</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='32' src='http://photos1.blogger.com/img/192/4037/320/DSCF7184.427.jpg'/></author><generator version='7.00' uri='http://www.blogger.com'>Blogger</generator><openSearch:totalResults>20</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>100</openSearch:itemsPerPage><entry><id>tag:blogger.com,1999:blog-9797373.post-111765103906796287</id><published>2005-06-02T02:11:00.000+08:00</published><updated>2005-06-02T02:37:19.080+08:00</updated><title type='text'>一個熱門話題的解惑 - Web Mining</title><content type='html'>&lt;span style="font-size:78%;"&gt;出處：&lt;/span&gt;&lt;a href="http://66.102.7.104/search?q=cache:JY72Rymfq0YJ:letgo.blogchina.com/letgo/1577076.html+Web+Mining&amp;hl=zh-TW&amp;amp;lr=lang_zh-CNlang_zh-TW"&gt;&lt;span style="font-size:78%;"&gt;http://66.102.7.104/search?q=cache:JY72Rymfq0YJ:letgo.blogchina.com/letgo/1577076.html+Web+Mining&amp;hl=zh-TW&amp;amp;lr=lang_zh-CNlang_zh-TW&lt;/span&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;Web數據挖掘：將客戶數據轉化為客戶價值。&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;　　Web上有海量的數據信息，怎樣對這些數據進行複雜的應用成了現今數據庫技術的研究熱點。數據挖掘就是從大量的數據中發現隱含的規律性的內容，解決數據的應用質量問題。充分利用有用的數據，廢棄虛偽無用的數據，是數據挖掘技術的最重要的應用。相對於Web的數據而言，傳統的數據庫中的數據結構性很強，即其中的數據為完全結構化的數據，而Web上的數據最大特點就是半結構化。所謂半結構化是相對於完全結構化的傳統數據庫的數據而言。顯然，面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要複雜得多。&lt;br /&gt;　　&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;　　&lt;span style="color:#ff0000;"&gt;1.異構數據庫環境 ：&lt;/span&gt;從數據庫研究的角度出發，Web網站上的信息也可以看作一個數據庫，一個更大、更複雜的數據庫。Web上的每一個站點就是一個數據源，每個數據源都是異構的，因而每一站點之間的信息和組織都不一樣，這就構成了一個巨大的異構數據庫環境。如果想要利用這些數據進行數據挖掘，首先，必須要研究站點之間異構數據的集成問題，只有將這些站點的數據都集成起來，提供給用戶一個統一的視圖，才有可能從巨大的數據資源中獲取所需的東西。其次，還要解決Web上的數據查詢問題，因為如果所需的數據不能很有效地得到，對這些數據進行分析、集成、處理就無從談起。&lt;br /&gt;　　&lt;span style="color:#ff0000;"&gt;2.半結構化的數據結構 ：&lt;/span&gt;Web上的數據與傳統的數據庫中的數據不同，傳統的數據庫都有一定的數據模型，可以根據模型來具體描述特定的數據。而Web上的數據非常複雜，沒有特定的模型描述，每一站點的數據都各自獨立設計，並且數據本身具有自述性和動態可變性。因而，Web上的數據具有一定的結構性，但因自述層次的存在，從而是一種非完全結構化的數據，這也被稱之為半結構化數據。半結構化是Web上數據的最大特點。&lt;br /&gt;　　&lt;span style="color:#ff0000;"&gt;3.解決半結構化的數據源問題 ：&lt;/span&gt;Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題。解決Web上的異構數據的集成與查詢問題，就必須要有一個模型來清晰地描述Web上的數據。針對Web上的數據半結構化的特點，尋找一個半結構化的數據模型是解決問題的關鍵所在。除了要定義一個半結構化數據模型外，還需要一種半結構化模型抽取技術，即自動地從現有數據中抽取半結構化模型的技術。面向Web的數據挖掘必須以半結構化模型和半結構化數據模型抽取技術為前提。&lt;br /&gt;&lt;/span&gt;&lt;a id="B" name="B"&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;　　&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;Web正在改變著整個業務領域!業務領域的不斷改變影響著數據挖掘技術，數據挖掘也在不斷地改變著整個業務領域。&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;span style="font-size:85%;"&gt;　　數據挖掘："數據挖掘"(Data Mining)是一種新的商業信息處理技術，其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理，從中提取輔助商業決策的關鍵性數據。近年來，數據挖掘引起了信息產業界的極大關注，其主要原因是由於企業數據庫的廣泛使用，存在大量的數據，並且迫切需要從這些數據中獲取有用的信息的知識。獲取的信息和知識有廣泛的應用，例如：商務管理、生產管理、市場控制、市場分析、工程設計和科學探索等。越來越多的IT企業看到了這一誘人的市場，紛紛加入到數據挖掘工具的開發中來，並獲得豐厚的回報。&lt;br /&gt;&lt;/span&gt;&lt;a id="C" name="C"&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;商業智能&lt;br /&gt;　　&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;　　面向Web的數據挖掘是一項複雜的技術，由於Web數據挖掘比單個數據倉庫的挖掘要複雜的多，因而面向Web的數據挖掘成了一個難以解決的問題。而XML的出現為解決Web數據挖掘的難題帶來了機會。由於XML能夠使不同來源的結構化的數據很容易地結合在一起，因而使搜索多樣的不兼容的數據庫能夠成為可能，從而為解決Web數據挖掘難題帶來了希望。XML的擴展性和靈活性允許XML描述不同種類應用軟件中的數據，從而能描述搜集的Web頁中的數據記錄。同時，由於基於XML的數據是自我描述的，數據不需要有內部描述就能被交換和處理。作為表示結構化數據的一個工業標準，XML為組織、軟件開發者、Web站點和終端使用者提供了許多有利條件。相信在以後，隨著XML作為在Web上交換數據的一種標準方式的出現，面向Web的數據挖掘將會變得非常輕鬆。&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111765103906796287?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111765103906796287/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111765103906796287&amp;isPopup=true' title='6 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111765103906796287'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111765103906796287'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/06/web-mining.html' title='一個熱門話題的解惑 - Web Mining'/><author><name>李岳峰</name><uri>http://www.blogger.com/profile/10991782835467062199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>6</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111702640139194281</id><published>2005-05-25T20:57:00.000+08:00</published><updated>2005-05-25T21:09:22.493+08:00</updated><title type='text'>Exploration of the Open Source Software Community</title><content type='html'>Jin Xu&lt;br /&gt;University of Notre Dame&lt;br /&gt;jxu1@nd.edu&lt;br /&gt;Gregory Madey&lt;br /&gt;University of Notre Dame&lt;br /&gt;gmadey@nd.edu&lt;br /&gt;&lt;br /&gt;Abstract&lt;br /&gt;The OSS community can be considered as a complex, self-organizing system. These&lt;br /&gt;systems are typically comprised of large numbers of locally interacting elements.&lt;br /&gt;Developers are main components in this network. The interaction between developers&lt;br /&gt;forms a collaborative social network. Study of the roles of developers and their&lt;br /&gt;activities can help us determine the development of projects. In this paper, we perform a&lt;br /&gt;quantitative analysis of Open Source Software developers by studying the whole&lt;br /&gt;developer community at SourceForge. Our research provides topological and&lt;br /&gt;evolutionary statistics for the OSS developer social network, which is helpful to&lt;br /&gt;understand the OSS phenomenon. Our work shows that OSS developer network is a scale&lt;br /&gt;free network.&lt;br /&gt;&lt;br /&gt;Exploration of the Open Source Software CommunityJin Xu, Gregory MadeyThe OSS movement is a phenomenon that challenges many traditional theories in economics, softwareengineering, business strategy, and IT management. The OSS community has developed a substantialamount of the infrastructure of the Internet, and has several outstanding technical achievements, includingApache, Perl, Linux, etc. These programs were written, developed, and debugged largely by part timecontributors, who in most cases were not paid for their work, and without the benefit of any traditionalproject management techniques. A research study of how the OSS community functions may help ITplanners make more informed decisions and develop more effective strategies for using OSS software.&lt;br /&gt;&lt;br /&gt;The OSS community can be considered as a complex, self-organizing system [Madey 2004]. Thesesystems are typically comprised of large numbers of locally interacting elements. The Open SourceSoftware (OSS) development movement is a classic example of a dynamic social network; it is also aprototype of a complex evolving network. Developers are main components in this network. As shown inFigure 1, many developers may participate in one project. A developer may join many projects. Theinteraction between developers forms a collaborative social network. Study of the roles of developers andtheir activities can help us determine the development of projects.&lt;br /&gt;&lt;br /&gt;Some researchers have begun to study OSS developers. Nakakoji et al. [Nakakoji 2002] classify OSScommunity members into deferent roles and study the influences of different members on the OSS systemand the community in three OSS projects. A modified classification is presented by Xu [Xu 2003] toredefine OSS member roles which will be discussed in the next section. Crowston et al. [Crowston 2002]studied the OSS development teams on success factors for distributed work teams. By studying LinuxSoftware Maps (LSMs), Dempsey et al. [Dempsey 2002] analyze the body of all extant LSMs at a Linuxsite to obtain information on the nature of Linux contributions and their contributors. Data miningtechniques were used by Xu et al. to find patterns in the OSS developers’ community [Xu1 2003]. Gao etal. [Gao 2003, Xu2 2003] simulate activities of core developers on SourceForge hosted projects.Figure 1: Developer Social Network, Linked by Joint Project Membership —Cluster of Size 16(This graph is drawn by using UCINet [Ucinet])&lt;br /&gt;&lt;br /&gt;&lt;img src="http://photos1.blogger.com/img/192/4037/320/1.jpg"&gt;&lt;br /&gt;Figure 1: Developer Social Network, Linked by Joint Project Membership —Cluster of Size 16(This graph is drawn by using UCINet [Ucinet])&lt;br /&gt;&lt;br /&gt;All of these previous studies are either qualitative classifications or are performed on a small set ofsample projects. In this paper, we perform a quantitative analysis of Open Source Software developers bystudying the whole developer community at SourceForge. Our research provides topological andevolutionary statistics for the OSS developer social network, which is helpful to understand the OSSphenomenon. The work in this paper is the preliminary stage of our OSS community study. Based on thesestatistic data, we will develop agent-based models to simulate the development of the OSS community.&lt;br /&gt;&lt;br /&gt;The rest of this paper is organized as follows: the next section describes the properties of OSSdeveloper network; the third section classifies roles of developers by their activities in projects; Then, datacollection and mining process are presented; Based on the collected data, statistic analysis is performed onthe SourceForge developer community; lastly, conclusions and future work are given.&lt;br /&gt;&lt;br /&gt;OSS Developer NetworkThe OSS developer network is a scale free network whose degree distribution follows a power law.According to Barabasi and Albert [Barabasi 1999], such a network possesses two properties:&lt;br /&gt;&lt;br /&gt;Unlike random networks which have a fixed number of nodes that are randomly connected, thenetwork grows by the sequential addition of new nodes. In our OSS developer network, with thedevelopment of projects, developers sequentially join in projects.&lt;br /&gt;&lt;br /&gt;Unlike random networks in which the probability of two nodes being connected is independent ofthe nodes’ degree, there exists “richer gets richer” phenomenon in scale free networks. Theprobability of two nodes being connected is related to the nodes' degree, which is calledpreferential attachment. In OSS, developers tend to choose more popular projects to participate.&lt;br /&gt;&lt;br /&gt;Analysis of the SourceForge Developer CommunityWe classified developer roles in SourceForge as follows: project leaders are administrators in eachproject; core developers are members who control CVS releases and are listed in each project; codevelopers(central and peripheral developers) are people who are assigned to tasks such as bug fixing anddocument writing, but are not listed as project leaders and core developers; active users are those whosubmit requests and post messages, but are not included in project leaders, core developers and codevelopers;passive users are gotten by excluding all developers from all users. Figure 3 shows thedistribution of developers in the whole SourceForge community. About 65% of the community is passiveusers who have no direct contributions to the development of projects. Among developers, there are 28.4%project leaders, 15.5% core developers, 33.9% central/peripheral developers and 22.2% active users. Weobserved that the central/peripheral developers have almost the same percentage as the sum of projectleaders and core developers. This is because a large portion of projects on SourceForge are not so popularthat almost all developers are initiators. (Detailed analysis of specific projects is under investigation.)&lt;br /&gt;&lt;br /&gt;&lt;img src="http://photos1.blogger.com/img/192/4037/320/2.jpg"&gt;&lt;br /&gt;Figure 3: Distribution of SourceForge Community&lt;br /&gt;&lt;br /&gt;Degree distribution is the frequency of the index value throughout the network. Degree distributionwas believed to be a normal distribution, but Albert and Barabasi recently found it fit a power lawdistribution in many real networks [Albert 1999]. Figure 4 gives developer distributions in SourceForgecommunity. The X coordinate is the number of projects in which each developer participated, and the Ycoordinate is the number of developers in the related categories. The right sub-graph shows thedistribution based on the log scale. From the figure, we can observe that the developer distributionmatches the power law. Such power law distribution proves that the SourceForge developer network is ascale free network. In this network, developers sequentially choose more popular projects to join. Thus, apopular project tends to attract more and more developers, while less popular project sometimes can noteven survive after a while. (More results will be presented during the conference.)&lt;br /&gt;&lt;br /&gt;&lt;img src="http://photos1.blogger.com/img/192/4037/320/3.jpg"&gt;&lt;br /&gt;Figure 4: Degree Distribution of Developers&lt;br /&gt;&lt;br /&gt;ConclusionsIn this paper, we classify and study Open Source Software developer network of SourceForge. Thedata collection design and process are described. By gathering data from SourceForge 2003 data dump, weperform a quantitative analysis of OSS developers’ community. Our research provides useful informationto study the development of OSS projects. Future work will focus on the simulation of OSS developernetwork based on the statistic results in this paper.&lt;br /&gt;&lt;br /&gt;&lt;span style="color:#ff0000;"&gt;心得&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;在這篇文章中提到 OSS 開放源碼組織是一種龐大複雜的自體組織系統，相當於沒有主要的共用工作環境，但卻仍然可以造就大型團隊針對某些方向，設計出功能出色的軟體，其中相當具有代表性的有 Apache, Perl, Linux Kernel, PostgreSQL， 他們的組織可以說是呈現了某種共同社會網路的合作型態，類似宗教團體一般，人數越多，就有可能造就越特殊的成果，事實上存在著無尺度網路的現象，作者認為若能了解其中的結構，那麼對於我們開發大規模的專案會許多決策面的幫助，當然，在這其中，也有許多地方是我想去了解的，特別是在於這麼多人究竟是如何協同運作的。&lt;br /&gt;&lt;br /&gt;OSS 為什麼會呈現無尺度網路的分部，卻非隨機網路的分布型態，是由於，在 SourceForge 上，假設一個專案開出來時，會加入的開發者，大概都是對於這方面有相當興趣的人，當然，若這個主題越熱門，會吸引到的人相當於越多，所以並非是隨機分布的型態，另外一點，使用這個專案軟體的使用者，會對發生的問題作回報，或者是在 mailing list 成為討論串，這不但讓軟體找到了更好的方向，也增加了使用者之間的一種廣告效應。&lt;br /&gt;&lt;br /&gt;OSS 之所以能有這些成就，當然有許多的軟體輔助是必然的，例如 CVS ，他對於工作分配，以及後續的軟體維護追蹤升級等，都有良好的辦法可以支持，而且，即使是 CVS 本身佔有率，似乎也呈現著無尺度網路的分布效應。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111702640139194281?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111702640139194281/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111702640139194281&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111702640139194281'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111702640139194281'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/05/exploration-of-open-source-software.html' title='Exploration of the Open Source Software Community'/><author><name>林盈谷</name><uri>http://www.blogger.com/profile/17993201709814773112</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='32' src='http://photos1.blogger.com/img/192/4037/320/DSCF7184.427.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111702061134568501</id><published>2005-05-25T19:29:00.000+08:00</published><updated>2005-05-25T19:49:55.020+08:00</updated><title type='text'>普及數位文化的網格年代</title><content type='html'>人們把計算機的普及劃分為Net、Web和Grid三個時代。如圖2所示，縱座標p為普及指數（pervasive index），代表參加聯網的計算機總數與人口總數之比。&lt;br /&gt;&lt;br /&gt;在互聯網誕生初期的Net時期，網路僅僅作為科學家之間的一種聯絡工具，聯繫數量不多的計算機。這個時期平均每一萬人才有一台計算機，p值小於萬分之一。 九十年代之後，Web的應用開始了網路的公眾認可期，萬維網作為搜尋資訊的文化工具，採用一對多的client/server結構，p值躍升到0.01至 0.1。2005年之後，將逐漸進入廣泛應用計算機的Grid（網格）時代，目標是全人口透過計算機共用資訊，採用pervasive/Grid結構，計 算機成為一種遍及化的工具，聯網的計算機總數將接近甚至超過人口總數，p接近或超過1。&lt;br /&gt;&lt;br /&gt;無尺度現象的發現，使人們認識資訊共用與物質共用存在本質差異，認識到普及數位文化不應該像今天這樣艱難，為網格理想的早日實現堅定了信心。&lt;br /&gt;下面我們將進一步閘明，放棄僅僅依靠IP協議的單邊主義思維，不難發現：衛星數位廣播就是一種不限使用人數、滿足scale free要求的技術手段，利用中間緩存環節，對最終用戶構成雙向互動的機制，就可以形成“規模無上限”的個性化服務網格。&lt;br /&gt;&lt;br /&gt;&lt;span style="color:#ff0000;"&gt;心得&lt;/span&gt;&lt;br /&gt;網路世界帶來了某種資訊無限共享的特質，也因為如此，所以形成無尺度網路的要素之一，由於一台 Server 能夠提供多少 IP 連線，主要是受限於硬體設備或網路設備，但如今這些的外在限制逐漸變少了，硬體的話現今已大量採用叢集式架構，而頻寬的部份這篇文章有提到衛星廣播的技術，未來還有許多技術會轉換，另外 802.11 的技術也正在日益普及中，若許多主要城市都擁有無線網路覆蓋，我猜想也許不只有更多使用者可以享用其中的便利性，甚至各種公用設備，都有可能提供無線的技術，例如，可以跟全球通步化的無線時鐘，或者是某條道路上汽車的負載量等等，屆時增幅的比例也許會比現在更大也說不定。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111702061134568501?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111702061134568501/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111702061134568501&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111702061134568501'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111702061134568501'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/05/blog-post_25.html' title='普及數位文化的網格年代'/><author><name>林盈谷</name><uri>http://www.blogger.com/profile/17993201709814773112</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='32' src='http://photos1.blogger.com/img/192/4037/320/DSCF7184.427.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111666300081705857</id><published>2005-05-21T15:57:00.000+08:00</published><updated>2005-05-22T16:19:00.186+08:00</updated><title type='text'>萬維網演化為無尺度網路</title><content type='html'>&lt;strong&gt;&lt;span style="font-size:130%;"&gt;萬維網演化為無尺度網路&lt;/span&gt;&lt;/strong&gt;       作者: 中國工程院院士 李幼平&lt;br /&gt;網路改變了文化傳播，大家已經談了很多。今天，我們從無尺度現象談起，討論文化對網路的反作用。&lt;br /&gt;十幾年之前，web服務進入互聯網，開始了網路的文化應用。正是從那個時候起，互聯網的網站與網民才開始快速增長，網路才有興旺發達的今天。這是人類的文化活動影響網路的第一種反作用。&lt;br /&gt;第二種反作用鮮為人知。最近幾年，美國科學家A.L.Barabasi等人用統計物理學的實驗方法發現，文化活動悄悄改變著網路運作的數學模型，由原先正態分佈的隨機模型轉變為冪次分佈的無尺度模型。&lt;br /&gt;“無尺度”是什麼意思？這裡需要做一點解釋。原來，理論家把龐大複雜的網路，分解為“節點”（node）和“連接”（link）兩大要素。提供內容的網站和接受內容的網民統稱為“節點”，內容在節點間的運動稱為“連接”。一個網站的社會作用或文化地位，可以用該網站與外界的連接數k來衡量。如果某個網站很長時間也沒有人來連接，表明網站的社會影響不大，文化地位不高；反過來，如果連接頻繁，作用就大，地位就高。&lt;br /&gt;網民對網站的訪問，可以說是獨立、自由的，完全取決於網民本人的主觀意願。在做大量統計實驗之前，科學家預測，連接數k應當服從泊松分佈或正態分佈，即每個網站的被訪問量差異不會太大，就像人類身高差異不會太大那樣。然而，實測結果推翻了這個預測。Barabasi等人設計了一種軟體，可以從一個節點跳到另一節點，收集並記錄網上的所有連接。在對幾十萬個節點進行統計之後，發現了令人驚異的結果：當絕大多數網站的連接數很少的情況下，卻有極少數網站擁有高於普通網站百倍、千倍甚至萬倍的連接數。就像在茫茫人海中突然發現若干身高數百尺巨人那樣，令人意外。巨人的身高之大，已不能用普通人高度的尺度來度量，於是想出了“無尺度”的用詞，形容少數節點連接數大大超出普通節點的現象。&lt;br /&gt;上述實驗結果可以用冪次定律表達：出現連接數為k的概率 p（k），反比於k的n次方。其中，n稱為冪數，它是很接近於2的一個常數。&lt;br /&gt;冪次定律告訴我們，儘管萬維網提供內容的網站很多很多，網頁更是天文數位，但是，有能力長時間吸引眾多網民大量訪問的網站，為數非常有限。我們用連接數作判據，可以把少數對社會貢獻特別大的熱門網站從茫茫無邊的資訊海洋中分離出來。&lt;br /&gt;統計物理學家習慣於把服從冪律分佈的現象稱為無尺度現象。也就是說，人類的文化活動已使萬維網演化成為無尺度網路（scale free network）。&lt;br /&gt;我們在實際網路中看到的現象正是如此。儘管中國向網民提供內容的網站有六十萬個，但是，其中只有為數不多的網站，才擁有網民一次訪問難以窮盡的豐富內容，擁有接納許多人同時訪問的足夠帶寬，有條件演化成熱門網站。擁有大連接數的熱門網站，除了新浪、Google、Yahoo等門戶網站外，就是己經上網的報紙、期刊、通訊社、電臺之類的專業“網路傳媒”。在某種意義上可以說，正是網路傳媒的客觀存在，影響了網路運作的數學模型。&lt;br /&gt;無尺度現象不僅僅出現在萬維網中，在神經網路、細胞網路甚至人際網路中均有體現。可以說，凡有生命的地方，有進化、有競爭的地方都有不同程度的體現。社會學家所說的“馬太效應”，《新約》聖經所說“凡有的，還要加給他，叫他有餘”，同無尺度現象也有某種相通之處。&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;&lt;span style="font-size:130%;"&gt;無尺度現象的資訊學意義&lt;br /&gt;&lt;/span&gt;&lt;/strong&gt;無尺度現象的成因，可以從多種角度解釋。&lt;br /&gt;Barabasi等人解釋，優先連接性和網路的成長性是兩個起因。所謂成長性指網民網頁急劇增加，優先連接性指新網民總是優先選擇前人經常訪問的網站。隨著時間的演進，某些熱門的網站愈加熱門，不知名的網站愈加冷門。計算機倣真可以演示驗證，萬維網如何由相對均衡分佈的隨機網路逐漸演化為極不均衡分佈的無尺度網路。&lt;br /&gt;哲學家解釋：存在決定意識。某人選擇連接某一網站，雖然是一種個人意識。但人類生活在同一地球上，相同或者相似的客觀境遇，使得人群中有相同或相似的個人意識。大量的統計，把深藏於個性中的共性強烈地反應出來了。充分的自由民主，在一定條件下，有可能轉化為高度的集中統一，是“對立統一”的例證，一點也不值得奇怪。以DNA作例子，DNA雖然是個性的標誌，但人與人之間的碼元，99%以上是相同的，說明個性中潛在共性。&lt;br /&gt;無尺度現象給資訊科技工作者帶來很多啟示。&lt;br /&gt;首先，讓大家認識到，資訊社會同時兼有“大世界”與“小世界”兩種屬性。一方面，網民、網頁、帶寬隨時間快速成長，使得萬維網成為名符其實的全球範圍內的巨大網羅（world wide web）。另一方面，每個人一天之內所能接受的資訊，受到生理帶寬與生理精力的限制，又是一個不隨時間變化的小世界。大世界與小世界之間，技術世界同“以人為本”的人文世界之間，存在明顯的差異與矛盾。矛盾的主要方面在用戶端。用戶感覺到，數十萬網站和數百億網頁，猶如“資訊孤島”，實在難以分別直接面對。他們希望能出現一種承大啟小的“中間代理”，用戶很容易對這個統一的中間代理表達自己的需求，有興趣的內容又會透過中間代理主動地流入自己的家中。“中間代理”是什麼？它正是無尺度現象所指出的、由熱門網站構成群體。由數百或數千資源構成的熱門群體，是網民透過民主的方法由大家“選舉”出來的，是人類文明進程的自然產物，值得我們倍加珍惜。&lt;br /&gt;無尺度現象還從理論層次啟發資訊工作者：資訊共用和物質共用存在本質差異。資訊共用的本質，是信源母體不限數量（scale free）的複製（copy）；物質共用的本質，只是資源母體有限量的瓜分（share）。&lt;br /&gt;這是人類對資訊共用認識上的一次突破。在此之前，人類習慣於用“資訊公路”比喻網路中的資訊共用。皆然是公路，“車多路堵、人多網堵”便是不可避免的。好像限制享用的人數是天經地義的。當前不少專家仍舊認為，要增加享用人數，除了帶寬化，就沒有別的出路了。帶寬是一種物質性資源，服從總量守衡，分給了你，別人可能就沒有了。不管怎麼配，享用的人數總是有限。我們認為，必須用科學的語言，揭示“資訊高速公路”比喻的局限性。在2003年第五期《SCIENTIFIC AMERRICAN》發表的Barabasi等人的著名論文中，就用圖1美國高速公路和航空運輸的圖形差異，來說明隨機網路與無尺度網路的差異。&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;心得：&lt;/strong&gt;&lt;br /&gt;科學家和工程師的任務是不斷從客觀現象中找出規律，讓人類與客觀世界和諧相處。作者從人類文化活動對網路產生的反作用講起，介紹了萬維網中的無尺度現象，闡述了利用衛星廣播與鏡象收存實現文化網格的理想，並且延伸開去，得出看法：網路不僅是個人和個人交流的工具，也是個人與社會之間的文化媒介。本文最後的結論是：網路改變了人類的文化活動，文化活動也改變了網路。正作用和反作用，一推一挽，推動人類文明的車輪滾滾向前。“當代資訊產業已不再是單純的資訊技術產業，而是資訊技術與資訊文化產業的統一”。政治家和科學家從不同的角度出發，得出幾乎相同的判斷。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111666300081705857?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111666300081705857/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111666300081705857&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111666300081705857'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111666300081705857'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/05/blog-post_21.html' title='萬維網演化為無尺度網路'/><author><name>江奕辰</name><uri>http://www.blogger.com/profile/04900519899803009025</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111666226919522083</id><published>2005-05-21T15:46:00.000+08:00</published><updated>2005-05-22T16:15:34.150+08:00</updated><title type='text'>Internet Plagues Spread Rapidly</title><content type='html'>&lt;strong&gt;Internet Plagues Spread Rapidly&lt;/strong&gt;&lt;br /&gt;If there's an outbreak of the flu in your city, you can count on the Centers for Disease Control for help, but if it's the "I Love You" bug, forget it. That's because viruses spread differently on the internet than they do in the real world, according to a paper in the 2 April PRL. While a biological disease can only spread from person to person, a digital virus can reach many computers simultaneously from a single server. This difference in transmission makes computer viruses all but impossible to eliminate, according to the authors, but the models they describe may lead to better strategies for protecting the electronic world.&lt;br /&gt;Normally, the prevalence of a disease depends upon its spreading rate relative to the epidemic threshold of a population. If the disease can spread at a rate above that threshold, it will survive, but if it cannot, it will die out. The flu spreads easily enough to keep a significant percentage of Americans constantly infected, but salmonella, transmitted solely through contaminated meat, exists only in isolated outbreaks.&lt;br /&gt;Computer viruses don't act this way; they can persist at nearly undetectable levels for very long periods of time without dying out entirely. This unusual behavior makes internet outbreaks difficult to predict and control. Romulado Pastor-Satorras of the Catalonian Polytechnic University in Spain and Alessandro Vespignani of the Abdus Salam International Center for Theoretical Physics in Italy suggest a new model that explains how computer viruses survive.&lt;br /&gt;In traditional epidemic models, each human has a small, fixed number of connections to others, according to Pastor-Satorras. But on the internet, desktop PC's have only one connection, while large government servers have many. So Pastor-Satorras and Vespignani varied the number of connections held by each computer, to better mimic the virtual world, where PCs, local network hubs, and large routers have radically different levels of connectivity.&lt;br /&gt;Their findings, which match trends in data collected by a computer virus tracking organization, were surprising. A virus can spread so easily inside the highly connected internet that there is no threshold below which it will die out. This model also makes an unsettling prediction: A long-forgotten virus hidden in a poorly connected PC can suddenly reemerge if it reaches a major server.&lt;br /&gt;"These kinds of simulation models can tell us interesting things," says Mark Newman, an expert in complex systems at the Santa Fe Institute. But, Newman adds, they are only a rough approximation of how the internet really works. Still, Pastor-Satorras and Vespignani believe their model provides new insight into how computer viruses spread, and they are now working on immunization techniques that they hope will keep the digital world safe from virtual scourges.&lt;br /&gt;Geoff Brumfiel&lt;br /&gt;&lt;strong&gt;來源網址:&lt;/strong&gt; http://focus.aps.org/story/v7/st15&lt;br /&gt;&lt;strong&gt;心得：&lt;br /&gt;&lt;/strong&gt;過去科學家錯認電腦病毒以類似生物病毒的方式散佈。然而網際網路結構上的弱點導致電腦病毒傳染並不像生物病毒傳播一樣必須超過一個最低門檻數目，此現象會讓網路非常容易遭受病毒的攻擊。&lt;br /&gt;受病毒感染的個體數目要超過一個最低門檻，否則病毒會自然的消失；然而將此模式應用於無尺度(scale-free)的電腦網路，發現要產生傳染的最低門檻數目並不存在，電腦病毒即使以非常緩慢的速度傳播，在網路上依然可以倖存。&lt;br /&gt;原因在於電腦網路屬於無尺度的網路結構，在這種網路結構裡面的許多節點，其與其他節點的連結數目並不具有一個平均值，不若格狀網路結構，每個節點都與周遭四個節點連結，至於隨意式(random) 網路結構裡的所有節點，雖然可以任意連結，但仍能以統計方式計算出節點的平均連結值，隨意式網路的節點其節點連結數目會大於平均連結值的機會很低。&lt;br /&gt;無尺度網路中的部份節點，會以較高的數目進行連結，大部分的節點則只以低數目連結，﹝例如學校某個研究室內的電腦只與一部電腦連接，而電腦中心一部伺服器主機則連接了近百部電腦﹞，而且遠端節點之間具有許多的捷徑，所以相距甚遠的電子郵件伺服器憑著幾個跳躍就完成連接，由於上述的電腦網路結構特徵，讓網路非常容易遭受病毒的攻擊。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111666226919522083?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111666226919522083/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111666226919522083&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111666226919522083'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111666226919522083'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/05/internet-plagues-spread-rapidly.html' title='Internet Plagues Spread Rapidly'/><author><name>江奕辰</name><uri>http://www.blogger.com/profile/04900519899803009025</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111666153073380980</id><published>2005-05-21T15:41:00.000+08:00</published><updated>2005-05-21T15:45:30.743+08:00</updated><title type='text'>ICE M2M Power 風暴特刊： 訊息供應鏈 Message Supply Chain ─ 架構</title><content type='html'>．艾揚即時訊息技術電子週報 &lt;&gt;．&lt;br /&gt;第 7 期 2003.02.11&lt;br /&gt;ICE M2M Power 風暴特刊： 訊息供應鏈 Message Supply Chain ─ 架構&lt;br /&gt;[編輯手扎] ICE Messaging Editor's Note &lt;a href="mailto:jerry@icetech.com.tw"&gt; 郭漢丞&lt;/a&gt;    &lt;br /&gt;進入網際網路的時代，資訊的取得越來越迅速，您應該也能感同身受，但是回到您的企業與產業應用看看，生產資訊即時化了嗎？產銷資訊即時化了嗎？您可以取得此時此刻生產線上或應用現場 (Field) 的數據報表嗎？或者您在網際網路資訊快速交換的時代，仍舊安於使用前一天整理的過時報表，而不會懷疑目前生產線上的進度是否無法趕上船期？&lt;br /&gt;如果您是生產事業的資訊長，過去十年來您可能致力於建立生產線上自動化，並且已經成功地建構了以區域網路 (LAN) 為骨幹的生產自動化系統。但面對網際網路的時代，您的企業網路系統已經做好要延伸拓展的準備了嗎？在區域網路內部，頻寬不是問題，即時性也許也不是問題，但是在全球化的趨勢下，如何將生產、銷售、與通路完整結合，必須仰賴快速而精準的即時訊息傳遞系統，將每一個資訊處理的環節串聯起來，您才能夠把各自獨立的資料庫系統聯合成為一個企業資訊的有機體，把遠距分散的眾多資訊處理點即時串接，建立訊息供應鏈，您的企業資訊系統才能夠面對現在與未來五年的國際競爭。&lt;br /&gt;訊息供應鏈是針對企業資訊「訊暢其流」應運而生的架構觀念，是要讓企業以現行主流的 TCP/IP 通訊做基礎，善用所有的電信線路，有效地串聯內、外所有的資訊流通。以訊息傳遞為基礎，把企業最關鍵的人、事、物緊密地結合在一起，提供企業七天/二十四小時永不停頓的運作動力。&lt;br /&gt;如何建立企業與產業應用的訊息供應鏈？從本期開始，我們將從架構、應用、與實作三個面向，為您深入剖析競爭動力全面提昇的新世代即時訊息工程架構&lt;br /&gt;&lt;strong&gt;訊息供應鏈 ─ 架構&lt;/strong&gt;&lt;br /&gt;訊息傳遞的需求並非始於今日，但對遠距、即時、與多點的要求，要能同時符合這三者，是對傳統資訊系統的嚴苛挑戰。其原因即在伴隨網路時代而來的資訊先集中化而後分散化，或謂先擷取 (Acquisition) 而後傳遞 (Distribution) 資訊的需求。&lt;br /&gt;甚麼是「資訊先擷取而後傳遞」呢？&lt;br /&gt;我們先來看一個可以類比的對象：在製造業的上、中、下游，包含了採購 (Procurement)、生產 (Production)、運籌 (Logistic)、與訂單達成 (Fulfillment) 等重點，於焉形成 Supply Chain (供應鏈) 一連串緊扣的流程，進而結合理論、實務、與資訊應用，而成 Supply Chain Management (SCM) 此一科別。在 SCM裡，管理的對象為物、事、人。&lt;br /&gt;同樣的，在訊息的世界裡，也是有其供應鏈的模式呈現，也是有其必須被管理的標的存在。&lt;br /&gt;從訊息供應鏈 (Message Supply Chain) 的上游出發時，可能是最原始的訊息，或是經高低程度不一的加工訊息，循著既定的路線，到達訊息匯流處 (中游)。在這裡，訊息可以加上各種所需的商業邏輯，或是很單純地，直接被發派到下游。這樣，有幾個訊息供應鏈的特點，必須先被歸納起來：&lt;br /&gt;訊息供應鏈，是由遠距、即時、與多點這三個產業需求拱架起來的。&lt;br /&gt;訊息供應鏈的骨架，是 TCP/IP 通訊協定。&lt;br /&gt;訊息在供應鏈的上、中、下游，都可視需要進行加工處理。&lt;br /&gt;訊息供應鏈通常呈啞鈴狀，即上游 (訊息生產者) 與下游 (訊息消費者) 的節點數量，通常高過中游匯流處理機制的數量。&lt;br /&gt;訊息供應鏈的管理標的，也是物、事、人。其中物即是訊息，事即是商業邏輯，人即是使用者。&lt;br /&gt;訊息供應鏈的上、中、下游，即是資訊先擷取而後傳遞的呈現。&lt;br /&gt;&lt;strong&gt;遠距的訊息供應鏈&lt;br /&gt;&lt;/strong&gt;回想製造業的供應鏈管理，需求始自於資訊電子產業在全球分工的架構下，追求成品與半成品庫存天數的終極降低。因為全球化，所以從原物料的採購、生產的基地、到運籌達交的地點，可能都是跨洲、跨國、跨區的串聯作業。&lt;br /&gt;訊息供應鏈對應用涵括地理區域的要求，推到極致，即是全球皆可連結觸及的網際網路。Internet 以 TCP/IP 通訊協定為基礎，從國防、學術研究出發，現在則變成是商業運作，甚至是民生上不可缺乏的一環，是人類史上，最大型的一個公眾通訊數位網路。&lt;br /&gt;為了安全性的考量，有些應用系統選擇不跟公眾的網際網路搭上線，代之以私有的網路，如 VPN (企業私有網路) 或是 VAN (加值型封閉網路)，但卻還是取 TCP/IP 做為其內的通訊協定標準。因為，這樣才可以善用 (Leverage) 已經在 Internet 上發展出的技術與應用，豐富私有網路的服務內容。&lt;br /&gt;所以，無論是公眾還是私有網路，TCP/IP 成為各種遠距跨區應用唯一的通訊標準主流地位，已經無庸置疑。遠距應用的訊息供應鏈，必須支援 TCP/IP，自不待言。&lt;br /&gt;訊息供應鏈的上游、中游、與下游各點，可以個別被部署散置在廣大的地理區域中，只要是 TCP/IP 可以伸展到達的地方，就可接軌上訊息供應鏈，加入訊息運籌的行列。&lt;br /&gt;因此，若要問遠距的範籌該如何描繪，再觀察一下支援 TCP/IP 通訊的電信技術發展，就會發現，現在已經足可供企業充分規劃伸展了。&lt;br /&gt;從有線的窄頻 PSTN，寬頻 Leased Line、xDSL、Cable Modem、Fiber，到無線的 GSM、GPRS、3G、PHS、Wireless LAN，可讓訊息供應鏈各節點綜合部署規劃的線路型態 (Carrier Type)，已經相當地豐富。技術上沒問題，只剩線上成本的適足性考量。&lt;br /&gt;&lt;strong&gt;即時的訊息供應鏈&lt;/strong&gt;&lt;br /&gt;關於訊息即時性 (Real-time) 的意義與價值，我們已經在前面三期的電子週報充分地闡釋了。擷取其精華，不過下面數句：&lt;br /&gt;絕對的即時，是時間性要求的數值，是要問出：「你的訊息一秒更新幾次？」；相對的即時，是商業價值的轉換，是在時間價值上，有沒有辦法趕上應用的最低要求，也就是要問：「有沒有必要這麼快？」。&lt;br /&gt;每一種產業的訊息供應鏈，都必須針對應用的即時性，提供絕對與相對的分析，並在上、中、下游，對物、事、人，都有確切的答案。&lt;br /&gt;我們充分了解，有許多的產業應用，過去並未紮實地形成訊息供應鏈的資訊系統觀，也未能善用專長為訊暢其流的新世代訊息中介軟體，所以大量使用資料庫來勉力達成應用對即時性的要求，或是因而犧牲追求更卓越即時性的權利。&lt;br /&gt;現在再加上遠距需求的挑戰，應用擘畫者有了清楚的訊息供應鏈系統觀，搭配新世代的即時鉅量訊息匯流處理平台 ─ iPush® Server，再嚴苛的即時性要求，都可輕鬆應付。&lt;br /&gt;&lt;strong&gt;多點的訊息供應鏈&lt;br /&gt;&lt;/strong&gt;訊息供應鏈通常呈啞鈴狀，即上游 (訊息生產者) 與下游 (訊息消費者) 的節點數量，通常高過中游匯流處理機制的數量。在許多應用案例中，上游對中樞匯流處，或是下游對中樞匯流處的數量比，可以達到 1000:1 ~ 10000:1 的等級。&lt;br /&gt;訊息供應鏈的多點，其豐富性，不只表現在數量上，更表現在多樣化上。&lt;br /&gt;多點的”點”，可能來自傳統的 RS-232、RS-422、RS-485、CNC、PLC 串列設備，或是類比偵測儀器，這些單向或是雙向的訊息觸點，透過適當的轉換，都可與 Ethernet - TCP/IP 網路串聯，與訊息供應鏈接軌，成為訊息運籌的一環。&lt;br /&gt;多點的”點”，也可能是網路原生的資訊設備與軟體，如以 Windows 系列為作業系統的 PC、Notebook、Pocket PC、Smart Phone，或是執行 JVM 的 PDA、Java Phone；而軟體可能是客製的 Windows 應用程式，或是以瀏覽器為執行環境的 Web 應用程式。通常，這些端點的運作，都有使用者 (人) 在其中，所以具備人機介面 (HMI, Human-Machine Interface)，可作為監視與控制，甚至是決策支援的地方。稱它們為網路原生，是因為這些資訊設備，都已經內建 TCP/IP 的支援，所以天生就是訊息供應鏈的一環。&lt;br /&gt;來自傳統的 RS-232、RS-422、RS-485 串列設備，或是類比偵測儀器，這些單向或是雙向的訊息觸點，透過適當的轉換，都可與 Ethernet - TCP/IP 網路串聯，與訊息供應鏈接軌，成為訊息運籌的一環。&lt;br /&gt;使用低耦合性的訊息中介軟體作為訊息供應鏈的實作主體，將使得以上傳統串列設備與網路原生資訊設備，各點可以隨時加入系統，也可以隨時離開系統，系統都將持續運作。&lt;br /&gt;&lt;strong&gt;訊息供應鏈的強固性&lt;/strong&gt;&lt;br /&gt;Robustness，強固性，這是在資訊科技領域中，常被用來描述一個系統強健堅固程度很高的字眼。也就是說，面對許多會造成運作不正常，甚或癱瘓的環境，系統本身必須具備一定程度的容錯能力、抵禦能力、或是續航能力。&lt;br /&gt;遠距分散部署下的系統強固性，對產業應用而言，是一個嚴苛的挑戰。公眾或私有遠距網路環境充滿變數，原本採同步程式設計 (Synchronous Programming)，高耦合性 (Tightly-coupled) 的資料庫存取、RPC 遠端程序呼叫 (DCOM、CORBA、Remote Method Invocation)，這類的系統設計都顯得異常脆弱，強固性低。&lt;br /&gt;反觀導入具非同步程式設計 (Asynchronous Programming)，低耦合性 (Loosely-coupled) 特性的訊息中介軟體，整個系統將以原生 (Native)、天然 (Natural) 的方式，來面對遠距分散網路線上的多變，有效提高其強固性。&lt;br /&gt;我們用一個模擬的案例來進行強固性的說明。將訊息供應鏈部署在一個具有 Center (中心) 與 Field (現場) 的遠距應用環境中，有三個現場 (想像它們分別被部署在台灣的中、南、東部)，一個中心 (想像其被部署在台北)。這四個區域 (三個現場一個中心)，各有一套 iPush® Server 擔任個別區域的即時訊息交換平台，以及進行現場與中心的串聯，以進行跨區域的即時訊息交換。&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;心得：&lt;br /&gt;&lt;/strong&gt;訊息供應鏈是產業資訊擷取與傳遞的最佳答案：由遠距、即時、與多點這三個需求拱架起來的訊息供應鏈，是許多產業應用向前推進時，面對大量系統資訊生產、流動、加工、消費挑戰時，擷取與傳遞總合的最佳答案。而有如 iPush® Server 這樣的產品居中整流，整個訊息供應鏈的強固性與彈性，將可供產業各類的 Field-to-Center 與 Center-to-Center 應用，妥適地規劃。這是產業增加競爭力，可善加利用的一股向上提昇力量，是一種解決方案。&lt;br /&gt;而所謂的M2M 泛指機器對機器 (Machine-to-Machine)、人對機器(Man-to-Machine)、機器對人 (Machine-to-Man)、與人對人 (Man-to-Man) 之間的關係。M2M Solution 可以透過 PSTN、LAN、 WAN、或 Wireless，建立一套溝通 M2M 關係的解決方案，達成企業即時溝通無障礙的目標。&lt;br /&gt;在這個業界的競爭與比較，首當其衝的，就是平台可支援的最大同時連線數。數字越大，連線品質卻可維持在一定的水準，產品就越有競爭力；當然相對地，產品的規模及架構也會相對的龐大與複雜。以現今網際網路的發展速度來看，各種應用將來的線上人口是難以預期的，而訊息中介軟體架構，亦須朝向應付無限連線數量的方向來開發設計。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111666153073380980?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111666153073380980/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111666153073380980&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111666153073380980'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111666153073380980'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/05/ice-m2m-power-message-supply-chain.html' title='ICE M2M Power 風暴特刊： 訊息供應鏈 Message Supply Chain ─ 架構'/><author><name>江奕辰</name><uri>http://www.blogger.com/profile/04900519899803009025</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111582896336600745</id><published>2005-05-12T00:05:00.000+08:00</published><updated>2005-05-12T00:29:23.393+08:00</updated><title type='text'>部落格時代來臨 資訊交流將更迅速多元</title><content type='html'>&lt;span style="font-size:85%;color:#ff0000;"&gt;文章來源:&lt;/span&gt;&lt;a href="http://heterotopias.org/node/563/trackback"&gt;&lt;span style="font-size:85%;color:#ff0000;"&gt;http://heterotopias.org/node/563/trackback&lt;/span&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;(中央社記者林鼎堯台北二日電)「網誌」、「博客」、「部落格」，不管用哪種譯名稱呼，「blog」這種個人媒體的數量都已在國內外迅速增加，資訊交流因此更加迅速多元，影響力如野火燎原般，一發不可收拾。&lt;br /&gt;自去年下半年起，由於「蕃薯藤」、「無名小站」等熱門網站開始提供免費網路空間供人架設部落格，發表網誌的人暴增，保守估計，台灣應該已有超過十萬個部落格。&lt;br /&gt;部落格的發表形式類似日記，因此也被稱為「網路日誌」，簡稱「網誌」，中國則直接音譯為「博客」。&lt;br /&gt;部落格的架設技術簡單，作者一人擁有一個可發表文字、圖像的平台，還&lt;span style="color:#3366ff;"&gt;可藉由「迴響」、「引用」和RSS等功能串連，迅速得知其他網誌上的最新圖文，等於同時掌握許多最新報導&lt;/span&gt;。&lt;br /&gt;因屬個人媒體，每個網誌的特性各有不同。有些作者喜歡發表對生活周遭事物的感覺，有些專門提出對個人喜好事物的評論，也有些想以言論改變社會。&lt;br /&gt;綜合來看，&lt;span style="color:#33cc00;"&gt;網誌作者的動機相當複雜，但目的大多可歸至一個方向：與人溝通。&lt;/span&gt;&lt;br /&gt;曾在蕃薯藤任職的徐子涵，自兩年多年前開始寫部落格後，網路讀者迅速累積，只要在Google搜尋引擎打上「部落格」三個字，總可以在前三頁看到他的網誌。（註：使用Google作關鍵字搜尋時，會依Page Rank排名列出結果，通常越前面的網頁越能代表這個關鍵字。另外，徐子涵由於個人因素，已不再撰寫網誌。）&lt;br /&gt;徐子涵表示，會接觸部落格，一方面是喜歡追最新的東西，一方面是想呼籲大家注重摩托車安全議題，發覺部落格的媒介特性後，就積極實驗、發掘新的訊息傳播模式。&lt;br /&gt;在中國網站資料中，任職台灣某基金會公關人員的黃小黛所寫的部落格在華文世界排名前十名。她說，最初只想用文字吐納生命的感覺，將所感保存在一個固定的位置，而那個地方恰巧是網路而已。&lt;br /&gt;黃小黛說，寫網誌對她的好處在於認識許多被她作品吸引的讀者，由此與人互動，引發更多的感覺。&lt;br /&gt;網誌推廣人士李士傑表示，部落格可使一個人同時不刻意地與許多對象資訊交流，加速溝通過程，促進人與人之間互相了解。&lt;br /&gt;部落格除了是一種全新的個人資訊交流方式外，由於作者、讀者越來越多，網誌輿論力量也隨之增強。&lt;br /&gt;國外的部落格與主流媒體互動頻繁，巴格達的網誌作家曾在美伊戰爭時成為媒體邀稿對象；美國網誌作家的指正，間接造成CBS主播丹拉瑟下台。台灣方面，網誌又將對傳統媒體造成何種影響？&lt;br /&gt;身兼破報總編輯的黃孫權指出，傳統媒體現在要僱用數十位編輯、記者，未來如果網誌作家夠多、寫的東西夠專業，媒體可能僅需一些優秀編輯挑選部落格的稿，每個網誌都可以是一家通訊社。&lt;br /&gt;知名網誌作家、現任中時晚報記者的李怡志對此略有不同看法。他表示，&lt;span style="color:#cc9933;"&gt;當新聞協同作戰、需要十幾位記者合作採訪時，網誌作家可能會力有未逮，但民眾和媒體從業人員的分界將日益模糊，將有更多媒體以部落格為稿源&lt;/span&gt;。&lt;br /&gt;報界出身的網誌作家「奶爸」張育章則說，&lt;span style="color:#33cc00;"&gt;部落格與主流媒體的互動，將使訊息更多元、專業，只是台灣市場不大，可能養不出專業網誌作家&lt;/span&gt;。&lt;br /&gt;同時擔任中央研究院「數位典藏國家型科技計畫」專案經理的李士傑表示，&lt;span style="color:#993399;"&gt;網誌將在訊息交流方面帶來巨大影響，言論將可迅速導入，知識將可迅速累積，進而紓緩民眾與媒體間的資訊不平等現象&lt;/span&gt;。&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;span style="color:#ff0000;"&gt;心得：&lt;/span&gt;網路世界的發達導致人際間的距離也不像以前一樣近，每個人確有越來越多自己的想法，但有時卻無處發揮，或許是許不到志同道合的傾訴對象，於是助長了這些Blog的發展這道也是一個很好的管道，社會網路裡或許可以找到這些與自己match的朋友，在這樣互相切磋可以將彼此知識快速累積，但擔心的事，網路的言論是自由的沒有根據的，謠言很多，怎麼分辦一定要自己的拿捏好，不要讓網路讓你的知識退化了&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111582896336600745?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111582896336600745/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111582896336600745&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111582896336600745'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111582896336600745'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/05/blog-post.html' title='部落格時代來臨 資訊交流將更迅速多元'/><author><name>李岳峰</name><uri>http://www.blogger.com/profile/10991782835467062199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111444789917380534</id><published>2005-04-25T22:57:00.000+08:00</published><updated>2005-04-26T00:51:39.176+08:00</updated><title type='text'>網絡新媒體：誰與寬些尺度？</title><content type='html'>&lt;span style="font-size:85%;"&gt;摘錄於  &lt;a href="http://republicmedia.org/archives/000223.php"&gt;http://republicmedia.org/archives/000223.php&lt;/a&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;無線攝影器材廠商X10在紐約時報等知名網絡媒體上刊登一種新型態的廣告，&lt;span style="color:#3366ff;"&gt;跟許多網站上另開窗口的Pop-Up廣告類似，作法卻相反，廣告窗口是開在媒體網頁之「下」&lt;/span&gt;，他們稱之為「&lt;span style="color:#3366ff;"&gt;Pop-Under廣告&lt;/span&gt;」。而且這廣告不需要點選（Click）就直接進入（Through）該公司促銷產品的網頁。&lt;br /&gt;&lt;br /&gt;問題來了，Pop-Under廣告使網友在渾然不知的情況下直接進入廣告主網頁，如此產生的網頁閱讀或使用者接觸率，該不該被統計在網站流量內？網絡市調公司意見分歧，市場人士看法也大異其趣。&lt;br /&gt;&lt;br /&gt;事實上，早在X10之前，由網絡上原先有「垃圾郵件大王」（Spam King）稱號的華萊士（Sanford Wallace）「改邪歸正」之後開設的PassThisOn娛樂網站，已經於2000年初開始採用Pop-Under的廣告手法，使其廣告夥伴JobsOnline在2000年底的個別使用者（Unique Users）數量在Jupiter的統計中成為所有人力網站的龍頭，幾乎是老牌的Monster.com的兩倍。&lt;br /&gt;&lt;br /&gt;另一方面，市調公司評量網站的「網友平均停留時間」指標則顯示平均網友待在JobsOnline的時間不過兩分半左右，而Monster的造訪者卻超過20分鐘。誰是人力網站龍頭？就看你從哪個角度去看了。&lt;br /&gt;&lt;br /&gt;有人以Pop-Under是色情網站常用行銷手法而表示唾棄，根本是因噎廢食：在他人網站上開個窗口推廣宣傳自己的東西，是提供免費網頁空間的網站主要營收方式，99年初被雅虎購併的地球城市（GeoCities）是其中佼佼者﹔中小型同構型網站互相連結推廣的「網站連環」（Web Ring）也行之多年，最知名的網站連環在98年底被地球城市購併，所以webring.com現在變為webring.yahoo.com。&lt;br /&gt;&lt;br /&gt;原來大家Pop的是廣告，現在Pop-Under廣告所Pop的是網站，為什麼網站不能直接當廣告呢？「Pop-Under＝Pop＋Link＋Web Ring」，雅虎也在七月底開始測試這類廣告，想想地球城市與網站連環，倒並不令人意外。&lt;br /&gt;&lt;br /&gt;南宋劉克莊（號後村）繼承了辛（棄疾）派詞人的愛國情操與豪放風格，清人馮煦對其評價甚高，說他的詞與辛棄疾、陸游「猶鼎三足」，一闕〈賀新郎〉可以看出他關懷國事的心境，前幾句是：「國脈微如縷！問長纓、何時入手，縛將戎主？未必人間無好漢，誰與寬些尺度？」&lt;br /&gt;&lt;br /&gt;網絡產業從雲端跌到谷底，七月的最後一天，當獲選為對台灣PC產業影響最大的十五家廠商中第一名的宏碁，興高采烈參加台灣個人計算機產業發展屆滿二十年的「台灣PC20禮讚」慶典的同時，旗下的acer121網站也悄悄的Pop-Up出佔半個屏幕的「關站公告」，兩相對比，擔憂「網脈微如縷」的人不禁更是心急如焚。&lt;br /&gt;&lt;br /&gt;Pop-Under廣告不見得是能夠立刻使網絡廣告生機蓬勃、「縛將戎主」的「入手長纓」﹔但是，&lt;span style="color:#3366ff;"&gt;如果網絡產業缺乏創新的勇氣、沒有接受新觀念的胸襟，要有起色就更難了！&lt;/span&gt;誰說網絡廣告一定要Click之後才可以Through？誰說網絡廣告的網頁閱讀不能計算在網站的流量裡面？看待誰也不知道會如何發展的網絡新媒體，或許我們該用劉後村「未必人間無好漢，誰與寬些尺度？」的觀點，路，也才會更寬廣！ &lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;strong&gt;心得：&lt;/strong&gt;首先，以消費者的角度來看，不希望開一個網頁會跳出廣告，即使只有一兩個也難忍受，所以現今的瀏覽器都會有防廣告跳出的功能，我想這主要是針對使用者需求設計。這篇文章探討的網絡廣告的網頁閱讀不能計算在網站的流量裡面，我想這方面應該是停留時間而定，有些自動跳出的廣告一下子就被我們這些討厭廣告的使用者關掉了，這種使用者是被迫進入此網頁，我們這些人進出網頁的資料，對於網絡市調公司是無用的資料，所以我認為應該要以停留時間作為依據。&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111444789917380534?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111444789917380534/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111444789917380534&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111444789917380534'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111444789917380534'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/04/blog-post.html' title='網絡新媒體：誰與寬些尺度？'/><author><name>李岳峰</name><uri>http://www.blogger.com/profile/10991782835467062199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111400739221059355</id><published>2005-04-20T22:29:00.000+08:00</published><updated>2005-04-20T22:30:27.496+08:00</updated><title type='text'></title><content type='html'>&lt;a href="http://photos1.blogger.com/img/118/4177/640/scalefree2.jpg"&gt;&lt;img style="BORDER-RIGHT: #000000 1px solid; BORDER-TOP: #000000 1px solid; MARGIN: 2px; BORDER-LEFT: #000000 1px solid; BORDER-BOTTOM: #000000 1px solid" src="http://photos1.blogger.com/img/118/4177/320/scalefree2.jpg" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;隨機網路理論有一項重要預測：儘管連結是隨機安置的，但由此形成的網路卻是高度民主的，也就是說，絕大部分節點的連結數目會大致相同。實際上，隨機網路中節點的分佈方式將遵循鐘形的泊松分佈。連接數目比平均數高許多或低許多的節點，都十分罕見。有時隨機網路也稱作指數網路，因為一個節點連接k個其他節點的概率，會隨著k值的增大而呈指數遞減。&lt;br /&gt; &lt;a href="http://www.hello.com/" target="ext"&gt;&lt;img style="BORDER-RIGHT: 0px; PADDING-RIGHT: 0px; BORDER-TOP: 0px; PADDING-LEFT: 0px; BACKGROUND: none transparent scroll repeat 0% 0%; PADDING-BOTTOM: 0px; BORDER-LEFT: 0px; PADDING-TOP: 0px; BORDER-BOTTOM: 0px" alt="Posted by Hello" src="http://photos1.blogger.com/pbh.gif" align="absMiddle" border="0" /&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111400739221059355?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111400739221059355/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111400739221059355&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111400739221059355'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111400739221059355'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/04/kk.html' title=''/><author><name>景華</name><uri>http://www.blogger.com/profile/01252280775299524484</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111400675730518211</id><published>2005-04-20T22:19:00.000+08:00</published><updated>2005-04-20T22:20:37.536+08:00</updated><title type='text'></title><content type='html'>&lt;a href="http://photos1.blogger.com/img/118/4177/640/scalefree4.jpg"&gt;&lt;img style="BORDER-RIGHT: #000000 1px solid; BORDER-TOP: #000000 1px solid; MARGIN: 2px; BORDER-LEFT: #000000 1px solid; BORDER-BOTTOM: #000000 1px solid" src="http://photos1.blogger.com/img/118/4177/320/scalefree4.jpg" border="0" /&gt;&lt;/a&gt;&lt;br /&gt; 人們對電力網絡和通信網路的依賴程度日益增高，凸現了一個廣受關注的問題:這些網路到底有多可靠?好消息是複雜網路對意外故障具有很強的承受能力。實際上雖然每時每刻網路上都有數百個路由器失效，但網際網路卻很少因此受到大的影響。生命系統同樣也具有這種強韌性:雖然細胞記憶體在諸如突變和蛋白質出錯等數以千計的錯誤，但人體卻極少因此發生嚴重的後果，這種強韌性的來源是什麼呢？    直覺告訴我們，如果大部分節點發生癱瘓，將不可避免地導致網路的分裂。對隨機網路而言，這是絕對正確的:隨機網路中若有較大部分的節點被去除。網路必然潰散成彼此無法通訊的小型孤島:不過無尺度網路的類比結果，則展現了全然不同的情況：即使從網際網路路由器中隨機選擇的失效節點比例高達80%，剩餘的路由器還是能組成一個完整的集群並保證任意兩個節點間存在通路。要擾亂細抱內的蛋白質交互網路也同樣困難:我們的測量顯示，即使在細胞內隨機製造較高比例的突變，那些沒有改變的蛋白質還是會正常地繼續合作。    總的來說，無尺度網路對意外故障具有驚人的強韌性，這一特性本質上源於這些網路的非同質拓撲結構。隨機去除的方式所破壞的主要是那些不重要的節點，因為它們的數目遠大於集散節點。與那些幾乎連結所有節點的集散節點相此。那些不重要的節點只擁有少量的連結。因而去除它們不會對網路拓撲結構產生重大的影響。但是，對集散節點的依賴，也帶來了一個嚴重問題:面對蓄意攻擊時，網路可能不堪一擊。通過一系列的模擬，我們發現，只要去除少數幾個主要集散節點，就可導致網際網路潰散成孤立無援的小群路由器。類似地，對酵母的實驗也顯示，去除那些高連結性的蛋白質，比去除其他節點更容易導致酵母菌死亡。這些集散節點是決定性的，一旦發生使它們無法運作的突變，極有可能會導致整個細胞死亡。    對集散節點的依賴，視系統的不同，既有利也有弊。對細胞而言，能夠應付隨機出現的意外故障，當然是個大優點。此外，細胞對集散節點的依賴，也給藥物研究者提供了新的方法:有可能找到這樣的藥物，能針對性地攻擊細胞或者細菌的集散節點，以便殺死它們而又不會影響健康的組織。不利的情況也有:少數消息靈通的駭客只要攻擊一些集散節點，就足以搞垮整個通信基礎網路，這正是人們關心的焦點。    無尺度網路的這一致命缺陷，引發了這樣一個問題:到底有多少集散節點是必不可少的?最近的研究表明，總的來說，只要有5-10%的集散節點同時失效，就足以搞垮系統。我們對網際網路的實驗顯示，一次有組織的協同攻擊，只要去除掉若干個集散節點(先去除最大的，再去除次大的，依次類推)，就足以造成重大破壞。因此，為了避免因惡意攻擊帶來網路的大規模破壞，最有效的辦法就是保護好集散節點。不過，要想知道特定的網路系統到底有多容易被破壞掉，還有待進一步的研究。例如，如果Genzyme和Genentech這樣的集散節點一起失去作用，是不是美國的生物產業會因此而崩潰呢?&lt;br /&gt; &lt;a href="http://www.hello.com/" target="ext"&gt;&lt;img style="BORDER-RIGHT: 0px; PADDING-RIGHT: 0px; BORDER-TOP: 0px; PADDING-LEFT: 0px; BACKGROUND: none transparent scroll repeat 0% 0%; PADDING-BOTTOM: 0px; BORDER-LEFT: 0px; PADDING-TOP: 0px; BORDER-BOTTOM: 0px" alt="Posted by Hello" src="http://photos1.blogger.com/pbh.gif" align="absMiddle" border="0" /&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111400675730518211?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111400675730518211/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111400675730518211&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111400675730518211'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111400675730518211'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/04/80-5-10genzymegenentech.html' title=''/><author><name>景華</name><uri>http://www.blogger.com/profile/01252280775299524484</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111400529445656189</id><published>2005-04-20T21:53:00.000+08:00</published><updated>2005-04-20T21:58:39.446+08:00</updated><title type='text'>Collective dynamics of 'small-world' networks.</title><content type='html'>Watts DJ, Strogatz SH.Department of Theoretical and Applied Mechanics, Cornell University, Ithaca, New York 14853, USA. &lt;a href="mailto:djw24@columbia.edu"&gt;djw24@columbia.edu&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Networks of coupled dynamical systems have been used to model biological oscillators, Josephson junction arrays, excitable media, neural networks, spatial games, genetic control networks and many other self-organizing systems. Ordinarily, the connection topology is assumed to be either completely regular or completely random. But many biological, technological and social networks lie somewhere between these two extremes. Here we explore simple models of networks that can be tuned through this middle ground: regular networks 'rewired' to introduce increasing amounts of disorder.&lt;br /&gt;&lt;br /&gt;We find that these systems can be highly clustered , like regular lattices , yet have small characteristic path lengths, like random graphs. We call them 'small-world' networks,&lt;br /&gt;by analogy with the small-world phenomenon (popularly known as six degrees of separation ).&lt;br /&gt;The neural network of the worm Caenorhabditis elegans , the power grid of the western United States, and the collaboration graph of film actors are shown to be small-world networks.&lt;br /&gt;Models of dynamical systems with small-world coupling display enhanced signal-propagation speed, computational power, and synchronizability . In particular , infectious diseases spread more easily in small-world networks than in regular lattices.PMID: 9623998 [PubMed - indexed for MEDLINE]&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111400529445656189?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111400529445656189/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111400529445656189&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111400529445656189'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111400529445656189'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/04/collective-dynamics-of-small-world.html' title='Collective dynamics of &apos;small-world&apos; networks.'/><author><name>景華</name><uri>http://www.blogger.com/profile/01252280775299524484</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111400509330719075</id><published>2005-04-20T21:50:00.000+08:00</published><updated>2005-04-20T21:57:27.843+08:00</updated><title type='text'>Small-world Networks</title><content type='html'>A recent paper, Collective dynamics of "small-world" networks, by Duncan J. Watts and Steven H. Strogatz, which appeared in Nature volume 393, pp. 440-442 (4 June 1998), has attracted considerable attention.&lt;br /&gt;&lt;br /&gt;One can consider two extremes of networks. The first are regular networks, where "nearby" nodes have large numbers of interconnections, but "distant" nodes have few. The second are random networks, where the nodes are connected at random.&lt;br /&gt;&lt;br /&gt;Regular networks are highly clustered, i.e., there is a high density of connections between nearby nodes, but have long path lengths, i.e., to go from one distant node to another one must pass through many intermediate nodes.&lt;br /&gt;&lt;br /&gt;Random networks are highly un-clustered but have short path lengths. This is because the randomness makes it less likely that nearby nodes will have lots of connections, but introduces more links that connect one part of the network to another.&lt;br /&gt;&lt;br /&gt;Watts and Strogatz studied what happens between these two extremes. They started with regular networks and "re-wired" the nodes. That is, they decided whether to leave each edge connecting a pair of nodes in place, or to change it to connect the starting node to a different ending one, chosen at random. This decision was made at random, with probability p for each edge. Thus, if p = 0, the original regular network is unchanged, but if p = 1, the resulting network is completely random.&lt;br /&gt;&lt;br /&gt;Their computer experiments indicated that introducing a relatively small number of random connections dramatically changed the character of the graph. That is, for small values of p, the graphs retained their properties of being highly clustered, but the average path lengths dropped dramatically. For eample, for p = .01, (so that only 1% of the edges in the graph have been randomly changed), the "clustering coefficient" is over 95% of what it would be for a regular graph, but the "characteristic path length" is less than 20% of what it would be for a regular graph. They called these new graphs "small-world" networks.&lt;br /&gt;&lt;br /&gt;Part of the reason for the interest in their result is that small-world networks seem to be good models for a wide variety of physical situations. They showed that the power grid for the western U.S. (nodes are power stations, and there is an edge joining two nodes if the power stations are joined by high-voltage transmission lines), the neural network of a nematode worm (nodes are neurons and there is an edge joining two nodes if the neurons are joined by a synapse or gap junction), and the Internet Movie Database (nodes are actors and there is an edge joining two nodes if the actors have appeared in the same movie) all have the characteristics (high clustering coefficient but low characteristic path length) of small-world networks.&lt;br /&gt;&lt;br /&gt;Intuitively, one can see why small-world networks might provide a good model for a number of situations. For example, people tend to form tight clusters of friends and colleagues (a regular network), but then one person might move from New York to Los Angeles, say, introducing a random edge. The results of Watts and Strogatz then provide an explanation for the empirically observed phenomenon that there often seem to be surprisingly short connections between unrelated people (e.g., you meet a complete stranger on an airplane and soon discover that your sister's best friend went to college with his boss's wife).&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111400509330719075?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111400509330719075/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111400509330719075&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111400509330719075'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111400509330719075'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/04/small-world-networks.html' title='Small-world Networks'/><author><name>景華</name><uri>http://www.blogger.com/profile/01252280775299524484</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111220808320727636</id><published>2005-03-31T02:15:00.000+08:00</published><updated>2005-04-07T00:34:46.616+08:00</updated><title type='text'>學習的混沌法則</title><content type='html'>&lt;p&gt;&lt;span style="font-size:85%;"&gt;&lt;strong&gt;&lt;em&gt;「初始的微小差異可能引起巨大的結果變化」--- 《混沌動力學》&lt;/em&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;span style="font-size:78%;color:#cc66cc;"&gt;資料來源：&lt;/span&gt;&lt;a href="http://66.102.7.104/search?q=cache:eIyh-QKyl8sJ:www.isaacmao.com/works/%3F%2525u5B66%2525u4E60%2525u7684%2525u6DF7%2525u6C8C%2525u6CD5%2525u5219+%E7%A4%BE%E6%9C%83%E7%B6%B2%E8%B7%AF%E5%88%86%E6%9E%90&amp;hl=zh-TW"&gt;&lt;span style="font-size:78%;color:#cc66cc;"&gt;http://66.102.7.104/search?q=cache:eIyh-QKyl8sJ:www.isaacmao.com/works/%3F%2525u5B66%2525u4E60%2525u7684%2525u6DF7%2525u6C8C%2525u6CD5%2525u5219+%E7%A4%BE%E6%9C%83%E7%B6%B2%E8%B7%AF%E5%88%86%E6%9E%90&amp;amp;hl=zh-TW&lt;/span&gt;&lt;/a&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;~內文擷取~&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;span style="font-size:85%;"&gt;說起學習與混沌學有密切關係，很多人可能覺得摸不著頭腦。實際上，學習活動無論從微觀尺度(例如，一次思考)到宏觀尺度（例如，學校教育）都有混沌的潛規則在發揮作用，這些作用甚至可能完全改變一個人的終身軌跡，可能會有巨大的成功，也可能會陷入不可避免的怪圈中。&lt;span style="color:#3366ff;"&gt;混沌不是「模糊」，更不是「混亂」，混沌中的有序才是今天複雜知識社會的基本形態&lt;/span&gt;。&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;微小變化引起巨大的結果差異&lt;/strong&gt;&lt;br /&gt;&lt;br /&gt;先從Doug Wilms 這位世界頂級的兒童發展問題專家的研究說起。他所研究的內容中有很多具體入微的實驗，而結果則顯示了很多人們雖然從道理上明白卻總是模模糊糊的規律。他們發現，&lt;span style="color:#ff0000;"&gt;人的發展是與軌跡相關聯的&lt;/span&gt;。當我們在2歲的時候，可能在不同的氛圍中造成了一些詞彙量的差異，這種差異也許很小，只有150個。但是這種小差異會在15歲的時候放大為10年的差距。最高的程度可以達到大學二年級的認知能力，而最低可能只有5-6年級的水平，中間水平可能分別於兩個極端相差4-6年的程度。這個實驗說明，&lt;span style="color:#33cc00;"&gt;本來微小的差別可能在隨著時間不斷放大，而且並非以固定的線性方式增加，最終會不斷放大到顯著的差距程度。也就是說，這些微小的差異可能完全導致兩個人的人生軌跡產生巨大的反差。&lt;/span&gt;&lt;br /&gt;&lt;img src="http://photos1.blogger.com/img/263/4441/640/1231.jpg" /&gt;&lt;br /&gt;&lt;br /&gt;從以上的實驗和規律中可以產生一些最基本的思考：&lt;/p&gt;&lt;/span&gt;&lt;ul&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;在混沌學的理論中，我們知道「初始條件」是非常重要的。 &lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;為了給四個月大小的嬰兒閱讀，你必須要抱好嬰兒。研究表明，撫摸是另一種發展的驅動力。對於孤兒來說最缺少的就是撫摸。所以對嬰兒進行閱讀可以出發兩個驅動力：詞彙表和撫摸。&lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;發展的最顯著變化並非來自於學校（這也是國外發起UnSchooling運動的原因），更多是來自於6歲之前最佳時間。嬰兒和兒童的學習通常只有一條路徑--- 從玩中體驗，這與我們在學校的講課方式正好相反。 &lt;/span&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;span style="font-size:85%;"&gt;這些思考是研究學習活動中借助混沌學的一些基本結論，實際上我們越來越認識到，&lt;span style="color:#3366ff;"&gt;學習過程遠非一條詞彙發展的軌跡那樣簡單&lt;/span&gt;。&lt;span style="color:#33cc00;"&gt;每個人的多方面的智力、情感、技能等各領域的發展無時無刻不處於一種複雜的多因素動態過程中。想找到每個人發展的線性方程顯然是不可能的，這是一個非線性的混沌現象&lt;/span&gt;。&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;span style="font-size:85%;"&gt;&lt;strong&gt;大腦的混沌規律&lt;br /&gt;&lt;/strong&gt;&lt;br /&gt;頭腦中的大量信息處理過程本身是不確定的一個過程，每一個選擇都幾乎是大量神經元獨立判斷選擇後的一個匯總結果。即使在完全沒有干擾的情況下，任何人也很難在兩次表達一個類似的意思時，應用完全相同的句子。這也正說明了大腦中的每次思考和決策都是不確定的。當我們學習的時候，實際上是重新讓這些神經元建立對知識的新結構模型，而如果很快地讓這些模型重新應用起來，則必然有助於達到學習效果。&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;教育體系的混沌範式&lt;/strong&gt;&lt;br /&gt;&lt;br /&gt;在以往的教育體系研究中，人們往往或只研究宏觀的教育法規或政策，或只研究微觀的教學和課堂活動。宏觀的研究把教育當作一個社會系統，很少解釋和個體在系統中的角色，甚至不會考慮教育理論等因素。而微觀的研究雖然考慮了很多實際的情況，卻往往因為思考範圍的限制而影響了整體性。近年來的教育研究中開始出現一種綜合宏觀微觀維度研究的新方法，而其出發點就是混沌理論。&lt;br /&gt;&lt;br /&gt;&lt;span style="color:#3366ff;"&gt;學習的混沌法則也會影響學校的教育指導思想&lt;/span&gt;。在學校中，學生確實可以跟隨教育體制的安排參與學習活動，但是學生的人格、學習風格、做事態度都不是今天的學校可以完善的。學生每天的發展軌跡變化部分可能來自於學校、周圍的同伴，還有很多來自於家庭、公眾媒體，甚至來自從學校到家庭的路上所見所聞。學校校門之外的超市、商灘、遊戲廳和網吧都可能是影響學生每天微小變化的外界因素。而學校能夠提供的則仍然是缺少個性的知識填充教學方式，有限的積極影響甚至不如學校周圍的社會環境的消極影響。這也是近年來學校的教育功能收到質疑的主要原因。 &lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;span style="font-size:85%;"&gt;&lt;strong&gt;學習的混沌法則&lt;/strong&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="color:#33cc00;"&gt;社會越來越複雜，多樣性越來越明顯，個性化越來越突出，國際化越來越普及，而同時信息技術越來越發達。與此同時，混沌法則也會越來越顯現其效力&lt;/span&gt;。在二十年前，社會的規則非常簡單，人們的學習、工作、生活顯然都有很強烈的「固定」軌跡。而今天，社會的複雜性已經截然不同，只有成為合格的終身學習者才能夠有機會進入優勢軌道，讓自己的發展適應社會的變化需要，也同時能夠達到理想的精神世界。&lt;br /&gt;&lt;br /&gt;學習的混沌法則自然會指向一個學習效率和有效性的問題。所以作為終身學習者，必須要理解和掌握一些基於混沌法則的學習技能。每個人都會建立自己的學習模式，這些模式之間是有差別的，不但包含了智力因素、習慣因素，還有一些情感因素（例如，好奇心、價值觀等）。如果能夠在學習活動中把握了這些因素細微之處的重要性，則必然會達到疊加發展的效果，讓自己的軌跡變成優勢曲線：&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;&lt;/span&gt;&lt;ul&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;&lt;span style="color:#ff0000;"&gt;分形的時間：&lt;/span&gt;時間雖然對每個人都是公平的，但是對不同人時間的分形程度是不一樣的。 &lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;&lt;span style="color:#ff0000;"&gt;信息工具：&lt;/span&gt;良好的信息素養不僅僅是幫助你整理信息和數據，還會延伸你的行為線程，這類似最先進電腦CPU的多線程能力。很多工作可以通過電腦裡面的新型工具自動完成，而同時你有可能做更多需要親歷親為的工作。善於應用如Google這樣的搜索引擎，也被一些教育研究者證明有如學會查詞典一樣重要。&lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;&lt;span style="color:#ff0000;"&gt;社會網絡：&lt;/span&gt;&lt;span style="color:#ff0000;"&gt;社會網絡是每個人的終身資產，每個人在每個發展階段都需要自己的導師(Mentor)和可以真心交流的朋友圈子&lt;/span&gt;。這個網絡需要經營和不斷擴展，並真正發揮其知識價值。最近網絡上出現的很多社會性軟件(Social Software)都在探尋幫助人們充分利用社會網絡的知識價值。而著名的e-Learning專家Jay Cross更是直接指出了e-Learning 的實質就是優化個人的所有網絡（大腦網絡、知識網絡、社會網絡）和它們之間的互聯。&lt;span style="color:#cc33cc;"&gt;個人的社會網絡無疑能夠改善一個學習者的發展軌跡，激發其中的混沌效應&lt;/span&gt;。對處於發展期的兒童來說，一個名人對他的一句鼓勵的話語也許就能讓其徹底改變學習的態度，或者樹立更高的目標，這樣的效應是不能忽視的。 &lt;/span&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;span style="font-size:85%;"&gt;還有一個我們正在緊密觀察的社會現象也需要終身學習者加以重視，那就是&lt;span style="color:#3366ff;"&gt;近一年來在國內也逐步流行起來的Weblog（簡稱Blog）這種新型的網絡出版形式。它能夠幫助人們更及時地整理自己的知識，也會鼓勵學習者不斷進行反思，不但可以加深大腦活動的混沌程度，而且會直接幫助學習者（尤其是兒童）改善閱讀和語言、文字表達能力，還可以建立一種協作性的對話學習方式&lt;/span&gt;。 &lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;span style="font-size:85%;"&gt;從混沌的規律中我們可以認識到，粗簡的知識灌輸並不會引起混沌的發生，即使是冠以遠程教育、在線教育等名頭也不能改變其實質，頂多只是一種知識的直線積累。這也就是為什麼電腦有那麼大的存儲能力，卻仍然無法與人類的思維活動相媲美的原因(雖然克茲維爾正在努力創造更高級的機器智能，但他也承認機器很大時間內與人類的思維仍然有很大距離)。&lt;/span&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;&lt;span style="color:#ff6600;"&gt;By 李岳峰&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111220808320727636?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111220808320727636/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111220808320727636&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111220808320727636'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111220808320727636'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/03/blog-post_111220808320727636.html' title='學習的混沌法則'/><author><name>李岳峰</name><uri>http://www.blogger.com/profile/10991782835467062199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111105792422800889</id><published>2005-03-17T19:12:00.000+08:00</published><updated>2005-03-17T19:12:04.226+08:00</updated><title type='text'></title><content type='html'>&lt;a href='http://photos1.blogger.com/img/118/4177/640/Winter.jpg'&gt;&lt;img border='0' style='border:1px solid #000000; margin:2px' src='http://photos1.blogger.com/img/118/4177/320/Winter.jpg'&gt;&lt;/a&gt;&lt;br /&gt;5456456&amp;nbsp;&lt;a href='http://www.hello.com/' target='ext'&gt;&lt;img src='http://photos1.blogger.com/pbh.gif' alt='Posted by Hello' border='0' style='border:0px;padding:0px;background:transparent;' align='absmiddle'&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111105792422800889?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111105792422800889/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111105792422800889&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111105792422800889'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111105792422800889'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/03/5456456.html' title=''/><author><name>景華</name><uri>http://www.blogger.com/profile/01252280775299524484</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111103980445593100</id><published>2005-03-17T14:09:00.000+08:00</published><updated>2005-03-17T14:15:59.153+08:00</updated><title type='text'>Web Structure Mining</title><content type='html'>The goal of Web structure mining is to generate structural summary about the Web site and Web page. Technically, &lt;a href="http://www.cyberartsweb.org/cpace/ht/lanman/wcm1.htm"&gt;Web content mining&lt;/a&gt; mainly focuses on the structure of inner-document, while &lt;a href="http://www.cyberartsweb.org/cpace/ht/lanman/wsm1.htm"&gt;Web structure mining&lt;/a&gt; tries to discover the &lt;a href="http://www.cyberartsweb.org/cpace/ht/lanman/link.htm"&gt;link&lt;/a&gt; structure of the hyperlinks at the inter-document level. Based on the topology of the hyperlinks, Web structure mining will &lt;a href="http://www.cyberartsweb.org/cpace/ht/lanman/class1.htm"&gt;categorize&lt;/a&gt; the Web pages and generate the information, such as the similarity and relationship between different Web sites.&lt;br /&gt;&lt;br /&gt;Web structure mining can also have another direction -- discovering the structure of Web document itself. This type of structure mining can be used to reveal the structure (schema) of Web pages, &lt;span style="color:#ff0000;"&gt;this would be good for navigation purpose and make it possible to compare/integrate Web page schemes&lt;/span&gt;. This type of structure mining will facilitate introducing database techniques for accessing information in Web pages by providing a reference schema. The detailed works on it can be referred to [&lt;a href="http://www.cyberartsweb.org/cpace/ht/lanman/bibli.htm#[Madria"&gt;Madria 1999&lt;/a&gt;].&lt;br /&gt;&lt;br /&gt;What is on earth the structural information, and how to discover it? S.Madria et al. [&lt;a href="http://www.cyberartsweb.org/cpace/ht/lanman/bibli.htm#[Madria"&gt;Madria 1999&lt;/a&gt;] gave a detailed description about how to discover interesting and informative facts describing the connectivity in the Web subset, based on the given collection of interconnected web documents. The structural information generated from the Web structure mining includes the follows: the information measuring the frequency of the local links in the Web tuples in a Web table; the information measuring the frequency of Web tuples in a Web table containing links that are interior and the links that are within the same document; the information measuring the frequency of Web tuples in a Web table that contains links that are global and the links that span different Web sites; the information measuring the frequency of identical Web tuples that appear in the Web table or among the Web tables.&lt;br /&gt;&lt;br /&gt;In general, if a Web page is linked to another Web page directly, or the Web pages are neighbors, we would like to discover the relationships among those Web pages. The relations maybe fall in one of the types, such as they related by synonyms or ontology, they may have similar contents, both of them may sit in the same Web server therefore created by the same person. Another task of Web structure mining is to discover the nature of the hierarchy or network of hyperlink in the Web sites of a particular domain. This may help to generalize the flow of information in Web sites that may represent some particular domain, therefore the query processing will be easier and more efficient.&lt;br /&gt;&lt;br /&gt;Web structure mining has a nature relation with the &lt;a href="http://www.cyberartsweb.org/cpace/ht/lanman/wcm1.htm"&gt;Web content mining&lt;/a&gt;, since it is very likely that the Web documents contain links, and they both use the real or primary data on the Web. It's quite often to combine these two mining tasks in an application.&lt;br /&gt;&lt;br /&gt;&lt;span style="color:#666666;"&gt;data source: &lt;/span&gt;&lt;a href="http://www.cyberartsweb.org/cpace/ht/lanman/wsm1.htm"&gt;&lt;span style="color:#666666;"&gt;http://www.cyberartsweb.org/cpace/ht/lanman/wsm1.htm&lt;/span&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111103980445593100?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111103980445593100/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111103980445593100&amp;isPopup=true' title='2 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111103980445593100'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111103980445593100'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/03/web-structure-mining.html' title='Web Structure Mining'/><author><name>林盈谷</name><uri>http://www.blogger.com/profile/17993201709814773112</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='32' src='http://photos1.blogger.com/img/192/4037/320/DSCF7184.427.jpg'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111047369159002676</id><published>2005-03-11T00:47:00.000+08:00</published><updated>2005-03-11T00:54:51.596+08:00</updated><title type='text'></title><content type='html'>用社會網路分析 (Social Network Analysis ; SNA) 改進知識的創新與共享 &lt;br /&gt;作者： Rob Cross，Andrew Parker ， Steve Borgatti &lt;br /&gt;來源網站：http://www-8.ibm.com/services/tw/strategy/issue/&lt;br /&gt;介紹&lt;br /&gt;在IBM知識研究所進行的研究中，我們發現幾個對於有效學習很重要的因素。透過分析並將這些因素應用到組織內部的小組中，我們發現確實能夠提高知識的創新與共用。&lt;br /&gt;在工作中，我們可以提高本身知識的時間越來越少。即使在一個技術專業領域中，我們也越來越難以安於現狀。例如，在今天的醫學界裏，除了現階段正規的教育外，醫生經常是從他們的病人身上得到啟發，而病人也可以查閱和他們本身特殊症狀相關的資料。進一步說，隨著進入知識密集型的時代，很少有人能夠具有足夠的知識去解決日益模糊和複雜的問題。&lt;br /&gt;當經理人或執行長被要求解釋如何得到重要專案的成功資訊時，一連串問題所引發的不明確性和方法，都很有可能和你本身的經驗相關。但他之所以成功，不只靠他一個人所擁有的知識，而是能夠有效地找到並應用相關資訊。值得注意的是，網路在新知識的傳播中產生了重要的作用。&lt;br /&gt;IBM知識研究所發現這種狀況日益普遍。通常，當人們考慮該去何處獲取資訊時，就會自然地想到資料庫或者其他的資訊資源，如程式應用手冊等。&lt;br /&gt;然而，資訊取得有一個重要但經常被忽略的部分：就是一個人如何透過其人際關係以獲得所需資訊。據研究顯示，人們傾向於向朋友或同事求助的程度，比向其他資訊資源如資料庫或文件資料求助的程度要多出5倍。&lt;br /&gt;我們對40位經理的調查中，85％的人聲稱他們是從其他人身上，獲得成功並完成重要專案的重要知識。儘管這些經理人確實使用了組織內的資料庫，但也只是一個知識的補充。儘管他們的組織有技術上領先的平臺，以及獲取、識別與儲存知識的制度和實踐經驗，但他們仍然會求助於他人或其他資訊資源。&lt;br /&gt;社會網路分析 (Social Network Analysis ; SNA)&lt;br /&gt;簡而言之，你認識的人對你將要認識的人會有重大的影響。儘管我們可以設計程式以強化組織的學習、知識的傳播或創新，但是常常難以理解這些方案所達到的效果。我們已經發現運用社會網路分析 (Social Network Analysis ; SNA)——可用於反映人與人之間或部門間重要知識關係，因此特別有助於提高組織中的協作、知識創新和知識傳播。&lt;br /&gt;在管理方面，社會網路紀律的成長得益於商業界的三個重要發展：首先，是發現組織內部非正式結構的重要性，它和組織中的正式結構共存。第二個發現是，近年，來網路社群的發展，顛覆了舊有官僚體系及複雜的知識傳遞，組織變得更扁平；更有彈性；更可以隨需應變。第三個是跨組織合作的快速增長，如合資、聯盟、多方合作專案等等。虛擬組織產生了一個新的管理問題－就是在沒有嚴格的上下級關係時該如何管理專案。&lt;br /&gt;在這種情況下，社會網路分析展示了可觀的前景，有助於組織處理許多典型的情況，包括：&lt;br /&gt;領導選擇——誰在人群中是能被信任和受人尊敬的？ &lt;br /&gt;任務團隊選擇 ——我們如何將整個組織內有聯繫的人組成一個團隊 ? &lt;br /&gt;合併和收購——不只是兩種文化的合併，而是兩個獨立網路的合併 。 &lt;br /&gt;社會網路分析 (Social Network Analysis ; SNA) 和知識管理&lt;br /&gt;社會網路分析(Social Network Analysis ; SNA)使得管理者可以想像並理解，一些可能推動或阻滯知識創新和傳播的相互關係。資訊在一個組織內部如何流動？人們會向誰求助？ 有沒有出現合併後的下級組織不能有效共用資訊的情況？當分析社會網路（個體和連接團體的社會關係）經常會問到這些問題。這些問題的主要特徵在於顯示社群關係的模式和個體（或組織）之間的相對位置，也因此可以加強知識管理。&lt;br /&gt;知他人之所知&lt;br /&gt;在決定是否向某個人諮詢資訊或意見時，這個人必須對別人的知識、技巧和能力與當前問題的相關性有一定的理解。儘管由於種種原因，這種理解有可能是錯誤或有偏差的，但這仍然是決定向誰就某一問題諮詢資訊或建議的基礎。這樣，理解一個小組中成員對彼此的知識、技能和能力的瞭解程度是理解他們在知識共用和創新方面有效的第一步。&lt;br /&gt;能夠及時地知道“誰”有哪方面的知識。並可以要求及時地獲取“那人”的知識。 &lt;br /&gt;透過認知創造可行的知識 &lt;br /&gt;當然，單純的瞭解並不能幫助知識的傳播和創新。人們在傳播和創新知識方面有別於傳送文件或資料庫的方法，就是積極地幫助別人思考他們試圖解決的問題。對於那些諮詢他人的人來說，有些人願意先理解別人的問題，然後積極地將他們的知識略加修改以直接應用於問題本身，這樣便有助於知識創新。這和一些只是提供簡單的資訊，而沒有積極地解決問題的人形成了鮮明的對比。正如一位經理人所說，“我周圍有不少這樣的人，他們只是很快地給你一個說法，因為他們自以為很聰明，並且給你一些提示就使你很快地佩服他們，然後他們就可以逃脫解決問題的困難工作。Mike的責任感和思想覺悟並非如此，因為他會幫助你思考問題。”這樣，網路的第三個重要因素就是評估哪些人會積極地和別人交流，幫助別人解決問題。&lt;br /&gt;在一個安全的環境中學習 &lt;br /&gt;最終，關係具有一些屬性，這些屬性可以影響交互中出現的學習和創造性的程度。當一個人向另一個人諮詢資訊時，他們自然地變得易受攻擊，因為“尋求幫助暗示著無能力和依賴。”諮詢他人，是給一個您所“信任”的人一個權力。所以當一個人對另一個人的信任使得他承認自己的知識缺乏是不容易的，個人和團體都是如此。進一步說，以安全或信任程度為基礎，也為相互的探討和創新提供了空間。以安全或可靠為特徵的關係透過創新和學習的空間提高了知識創新的能力。&lt;br /&gt;知識關係的網路觀點&lt;br /&gt;透過將這些因素應用於一個組織內的重要小組，我們能更仔細地分析和干預知識創新及共用的關鍵因素。四個關鍵因素可以獨立看待，以說明一個網路的不同層面，但也可以全面性考察。進一步說，我們把這些關係聯繫起來，分析這些關係模式的變化也是很有啟發性的。例如，IBM 透過一個大型藥品公司的37名資訊科學家小組分析四個因素。目標是：&lt;br /&gt;分析他們彼此對對方的知識、技能和能力的理解，以評價這個小組的整體凝聚力 --“know”網路 。 &lt;br /&gt;識別他們網路中的中心人物，以理解哪些技能和知識是這個小組中，知識創新和應用方面最有影響力的人。 &lt;br /&gt;瞭解那些沒有和網路直接聯繫的人，因為他們可能代表沒有充分利用資產。 &lt;br /&gt;分析這個網路以突顯那些支援知識共用關係的四個因素與人們之間的聯繫   &lt;br /&gt;-- Know x Access x Engage x Safety Network. &lt;br /&gt;透過考察網路的四個因素，可以判斷什麼是阻礙知識共用的普遍因素（例如，我們知道的別人所知道的內容嗎，我們彼此之間可以理解嗎，等等）。一旦鑒別出來這個因素，就有可能為提高全面協作確立目標。&lt;br /&gt;知識創新和傳播提高了網路容量 &lt;br /&gt;社會網路分析 (Social Network Analysis ; SNA) 提供了一套工具和表示網路的方法，它們提供可特定的干預，這些干預是不透過標準的文化調查或面試技術實現的。例如，文化調查可能顯示組織的思想環境並不支援知識共用，SNA 則是一個更詳細的分析，它可明確地指出誰和誰共用知識。更重要的是，這種愈加精確的分析提供了一個具體的方法，以影響網路創造和共用知識的能力。以下是我們發現的有助於提高網路協作能力的幾種干預。&lt;br /&gt;當代表你自己和同事之間的關係時，社會網路分析 (Social Network Analysis ; SNA) 圖具有它們自己的生命周期。這很簡單，只需請人們用5分鐘的時間看他們自己或2、3個人的小組的關係，鑒別他們在圖上發現了什麼，結構化的結果阻礙或推動了小組的效力， 而小組的成績暗示會是一個極其有效的干預。&lt;br /&gt;聯結的技術&lt;br /&gt;儘管不能完全解決問題，但我們仍然有很多機會利用分散的技術，幫助相互之間有聯繫的人們。許多組織已經開始體驗並使用網路社群，其他的論壇邀請相關的專家參加解決問題。這些論壇使得員工可以向相關專家提出問題。如果一個組織已經建立了獎勵共用行為的方法，這種論壇常常是很有效的，它能夠集中整個社群的智慧來解決一個特定的問題。例如，在 Buckman 實驗室裏，澳大利亞的全國銷售經理計劃投標一個大型的造紙廠，希望一個公司為機器衛生和鹼性優質紙提供產品。但不幸的是，全國銷售經理關於鹼性優質紙的經驗非常有限。為了得到一些幫助，經理決定把他的問題發到企業內部網路 (intranet)。48小時內，他收到了來自世界各地的 Buckman 員工的詳細回應。來自其他員工的回應使他能夠準備一個成功的文案，為公司贏得了這次投標。 &lt;br /&gt;然而，一個以知識為基礎的專案在開始階段沒有清楚地定義問題。在這種情況下，個人需要能夠和組織內特定的人聯繫。為了回應這種需求，許多組織正在開發共同的“yellow pages”或員工的技能概況資料。例如，在微軟，他們已經創建了資訊系統組內部所有員工的核心資質資料庫。“這個專案的目標是提高員工對工作和專案團隊的匹配程度。” &lt;br /&gt;知識的多樣化 &lt;br /&gt;分析一個小組並發現它的成員經常無法有效地溝通是很容易的，但是只是建議需要更好地溝通並不能幫助小組理解如何使溝通更有效。透過分析形成有效資訊流的四個因素——知識分享、互相讀取、安全感和彼此交流（見表）的關係，我們可以提供精確的技術和社會“干預 Interventions”，以提高網路共用和創造知識的能力。&lt;br /&gt;因素 &lt;br /&gt;1.知識分享 (Knowledge) &lt;br /&gt;2.互相讀取 (Access) &lt;br /&gt;3.彼此交流 (Engagement) &lt;br /&gt;4.安全感 (safety) &lt;br /&gt;&lt;br /&gt;目的 &lt;br /&gt;1.提高公司內部相互了解 Knows what and who is working what   &lt;br /&gt;2.加快知識共用的速度  鎖定目標，直接聯繫 &lt;br /&gt;3.使交流更容易， 為人們傳統的交流方式增加新方法  增強性能  增強合作團隊的技能、能力和知識的意識 &lt;br /&gt;4.人際關係安全感及信賴度增加 &lt;br /&gt;&lt;br /&gt;技術干預 &lt;br /&gt;1.個人技能系統  公用yellow pages &lt;br /&gt;2.電子郵件 電話 &lt;br /&gt;3.同步技術  (如 Lotus® Sametime® 或 AOL 即時快報  ) 公告欄 視訊 &lt;br /&gt;4.在公司內部使用任何形式的通訊技術 &lt;br /&gt;&lt;br /&gt;社會干預 &lt;br /&gt;1.社群實踐 知識區域的專家提供的主題協助 知識巡展  &lt;br /&gt;2.同好會/座談會  定期進行社會網路分析(SNA) &lt;br /&gt;3.同業評論 &lt;br /&gt;4.面對面交流如工作會議或 “brown bag” 午餐  定期進行社會網路分析(SNA) &lt;br /&gt;&lt;br /&gt;結論&lt;br /&gt;組織內部的關鍵資源是發掘有經驗的員工在日常工作中的知識。然而，除了人力資源政策的目的是針對吸引、發展和保持有技術知識的員工，很少有人去研究人和關係相互運用知識的系統方法。如果人們能夠依靠他們自己的知識和他們接觸到的知識解決問題，這就是一個極其重要的捷徑。社會網路分析 (Social Network Analysis ; SNA)使得我們能夠理解一個既定人群的網路如何創造和共用知識，並幫助我們超越這種方法。&lt;br /&gt;透過提供具體而明確的重要性範疇，並依據它們評估這些網路，我們使得社會網路分析 (Social Network Analysis ; SNA) 的應用在許多方面更有用途。如果只是觀察一個網路，那麼我們的建議就是引入其他不同的會見形式，然而，如果我們把這個網路分成知識分享、互相讀取、安全感和彼此交流幾個方面，我們就有更好的建議來改造這個網路。&lt;br /&gt;在 IBM，我們樂於協助您的公司分析、建立和加強社會網路分析 (SNA) 的機會。我們的社會網路分析 (SNA) 顧問能夠指出潛在的瓶頸、使用率低下、錯誤和障礙，並且提供可行性策略。&lt;br /&gt;&lt;br /&gt;心得：　　　　　　　　　　　　　　　　　　　　　　　　（ＢＹ　奕辰）&lt;br /&gt;一個人獲得知識的環境常受到人際關係影響，也就是說就是人際關係經常影響一個人獲取知識的管道。社會網路分析就是幫助管理者可以想象並理解一些可能推動、或阻礙知識創新與傳播的關係。&lt;br /&gt;你認識的人將會影響你讓你去認識原本陌生的人，而新認識的這個人必定與影響你的人有關聯。知識透過人與人之間傳播，經由舊朋友認識新朋友，慢慢的這些透過共同朋友相互認識的人將形成一個群體，此群體如同一個小型的網路一樣，知識分享、互相讀取、安全感和彼此交流幾個方面也將在此網路內互相流傳。&lt;br /&gt;社會分析將幫助我們從這個群體構成的網路裡去了解既定人群的網路如何創造和共用知識，並幫助我們超越這種方法，提供更好且可行的策略。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111047369159002676?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111047369159002676/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111047369159002676&amp;isPopup=true' title='0 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111047369159002676'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111047369159002676'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/03/social-network-analysis-sna-rob.html' title=''/><author><name>江奕辰</name><uri>http://www.blogger.com/profile/04900519899803009025</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111044344885963744</id><published>2005-03-10T16:13:00.000+08:00</published><updated>2005-03-11T20:33:11.493+08:00</updated><title type='text'>Web Content Mining</title><content type='html'>&lt;span style="font-size:85%;"&gt;&lt;span style="color:#003300;"&gt;&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;span style="font-size:100%;color:#003300;"&gt;Objective &lt;/span&gt;&lt;br /&gt;&lt;br /&gt;In recent years the growth of the World Wide Web exceeded all expectations. Today there are several billions of HTML documents, pictures and other multimedia files available via internet and the number is still rising. But considering the impressive variety of the web, &lt;span style="color:#ff0000;"&gt;retrieving interesting content has become a very difficult task&lt;/span&gt;. &lt;span style="color:#3333ff;"&gt;Web Content Mining uses the ideas and principles of data mining and knowledge discovery to screen more specific data&lt;/span&gt;. The use of the Web as a provider of information is unfortunately more complex than working with static databases. Because of its very dynamic nature and its vast number of documents, there is a need for new solutions that are not depending on accessing the complete data on the outset. Another important aspect is the presentation of query results. Due to its enormous size, a web query can retrieve thousands of resulting webpages. Thus meaningful methods for presenting these large results are necessary to help a user to select the most interesting content.&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style="font-size:100%;"&gt;&lt;span style="color:#333300;"&gt;Techniques&lt;/span&gt; &lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#990000;"&gt;Classification of Multimedia Content and Websites&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;img src="http://photos1.blogger.com/img/192/4037/320/SiteMining1.jpg" /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;In order to retrieve relevant knowledge a system has to &lt;span style="color:#3333ff;"&gt;analyze web content first&lt;/span&gt;. Classification of web objects offers an automatic way to decide the relevance of web objects. Our focus in this area is the classification of websites or hosts. Since websites represent information on a more general level (e.g. a complete company) and are usually represented by multiple pages, classifiying website on top of webpage classification demands new algorithms. &lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#990000;"&gt;Focused Crawling&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;img src="http://www.dbs.informatik.uni-muenchen.de/Forschung/KDD/WebContentMining/WSGraph.jpg" /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;A focused web crawler takes a set of well-selected web pages exemplifying the user interest. Searching for further relevant web pages, the focused crawler starts from the given pages and recursively explores the linked web pages. &lt;span style="color:#3333ff;"&gt;While the crawlers used for refreshing the indices of the web search engines perform a breadth-first search of the whole web, a focused crawler explores only a small portion of the web using a best-first search guided by the user interest.&lt;/span&gt;We are especially interrested in crawling to retrieve complete websites, a task demanding new crawl strategies. Furthermore, we are interessted in crawling for multimedia content in the web, retrieving topics specific multimedia content instead of plain HTML documents.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#990000;"&gt;Clustering Web Objects&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;img src="http://photos1.blogger.com/img/192/4037/320/webcluster.jpg" /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;Focused Crawling retrieves large numbers of relevant data. In order to offer fast and more specific access to the query results, &lt;span style="color:#3333ff;"&gt;clustering is an established method to group the retrieved information to achieve better understanding&lt;/span&gt;. If the query results are websites or combined objects like images and their text descriptions, new algorithm are needed to handle these combined data types to find meaningul clusterings.&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#333300;"&gt;Applications&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#333300;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#000066;"&gt;Automatic Maintainance of Topic Specific Directory Services&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#000066;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;Directory Services like &lt;/span&gt;&lt;a href="http://www.dbs.informatik.uni-muenchen.de/Forschung/KDD/WebContentMining/www.dmoz.org"&gt;&lt;span style="font-size:85%;"&gt;DMOZ&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt; are an important method for WWW-users to locate interresting knowledge. Since general directory services try to handle all possible topics , the information provided for most topics is very incomplete. Thus, topic specific directory services are very useful to offer maximum information about web content treating this topic. To reduce the effort for maintaining a directory service, automatic classification, focused crawlers and clustering to present the provided content, helps to privde higher quality while demanding less manual interaction.&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:78%;color:#999999;"&gt;data source:&lt;/span&gt;&lt;br /&gt;&lt;a href="http://www.dbs.informatik.uni-muenchen.de/Forschung/KDD/WebContentMining/"&gt;&lt;span style="font-size:78%;color:#999999;"&gt;http://www.dbs.informatik.uni-muenchen.de/Forschung/KDD/WebContentMining/&lt;/span&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111044344885963744?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111044344885963744/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111044344885963744&amp;isPopup=true' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111044344885963744'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111044344885963744'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/03/web-content-mining.html' title='Web Content Mining'/><author><name>林盈谷</name><uri>http://www.blogger.com/profile/17993201709814773112</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='32' src='http://photos1.blogger.com/img/192/4037/320/DSCF7184.427.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111044129243251972</id><published>2005-03-10T15:50:00.000+08:00</published><updated>2005-03-10T15:57:26.130+08:00</updated><title type='text'>Behind the Six Degrees of SARS</title><content type='html'>&lt;span style="font-size:85%;"&gt;By &lt;/span&gt;&lt;a title="Send feedback and comments to Kristen Philipkoski" href="http://www.wired.com/news/feedback/mail/1,2330,0-31-58985,00.html"&gt;&lt;span style="font-size:85%;"&gt;Kristen Philipkoski &lt;/span&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;Story location: &lt;/span&gt;&lt;a href="http://www.wired.com/news/medtech/0,1286,58985,00.html"&gt;&lt;span style="font-size:85%;"&gt;http://www.wired.com/news/medtech/0,1286,58985,00.html&lt;/span&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;02:00 AM May. 29, 2003 PT&lt;br /&gt;&lt;br /&gt;The concept that each person on the planet is just six handshakes removed from every other person has frightening implications when it comes to a highly communicable disease like SARS.&lt;br /&gt;&lt;br /&gt;Yet the "small world" effect, also known as the "six degrees of separation" phenomenon, may also help explain how severe acute respiratory syndrome has spread so rapidly around the globe, some researchers believe. The disease has infected 8,221 people and killed 735 worldwide, according to the &lt;/span&gt;&lt;a href="http://www.who.int/csr/sars/country/2003_05_23/en/"&gt;&lt;span style="font-size:85%;"&gt;World Health Organization&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;.&lt;br /&gt;&lt;br /&gt;Physicists, psychologists and mathematicians who study network effects, the scientific field that the six-degrees-of-separation notion has engendered, are busy creating mathematical models that attempt to explain the quick spread of SARS.&lt;br /&gt;&lt;br /&gt;"We're modeling interactions within households, between households, in schools, shopping malls and other public areas," said &lt;/span&gt;&lt;a href="http://www.biosci.utexas.edu/IB/faculty/MEYERS.HTM"&gt;&lt;span style="font-size:85%;"&gt;Lauren Ancel Meyers&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;, an assistant professor of integrative biology at the University of Texas at Austin.&lt;br /&gt;&lt;br /&gt;Meyers and her colleague, Babak Pourbohloul, director of the division of mathematical modeling at the &lt;/span&gt;&lt;a href="http://www.bccdc.org/"&gt;&lt;span style="font-size:85%;"&gt;British Columbia Centre for Disease Control&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;, will use these models to predict which strategies will work best to control the spread of SARS.&lt;br /&gt;&lt;br /&gt;The two researchers are working closely with Canadian public health workers on the project. After a brief respite from new cases, Toronto recently reported eight unique cases of the disease, which can cause death from symptoms of pneumonia, re-instituting a travel advisory from the &lt;/span&gt;&lt;a href="http://www.cdc.gov/"&gt;&lt;span style="font-size:85%;"&gt;Centers for Disease Control and Prevention&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt; in the United States.&lt;br /&gt;&lt;br /&gt;"We would like to do something very useful for them," Meyers said. "We're working with a whole team of Canadian scientists who are developing vaccines and trying to characterize (and control) the virus."&lt;br /&gt;&lt;br /&gt;They also intend to develop software that would allow public health workers to predict the effectiveness of various methods for stopping the spread of the disease, such as face masks or quarantines.&lt;br /&gt;&lt;br /&gt;Mathematicians have long used equations to examine the spread of epidemics, and to help public health officials control them. A recent &lt;/span&gt;&lt;a href="http://www.sciencemag.org/cgi/content/abstract/1086925v1"&gt;&lt;span style="font-size:85%;"&gt;paper&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt; in Science applied these methods to SARS.&lt;br /&gt;&lt;br /&gt;In the Science article, the researchers assume that most people -- excluding those who come in contact with so-called superspreaders, have about the same chance of developing SARS. Superspreaders, researchers believe, have the ability to infect more people than most patients.&lt;br /&gt;&lt;br /&gt;Network science, on the other hand, assumes that each person's social habits can increase or lessen his or her chances of getting infected. For example, one might be much more likely to come into contact with someone with SARS by traveling on a plane to Taiwan, a country that has recently seen a high rate of SARS infections.&lt;br /&gt;&lt;br /&gt;"You take account of the fact that you don't have contact with everyone, but rather certain people," said &lt;/span&gt;&lt;a href="http://www.santafe.edu/~mark/pubs.html"&gt;&lt;span style="font-size:85%;"&gt;Mark Newman&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;, a professor of physics and complex systems at the University of Michigan, who pioneered the application of network effects to epidemics. "Then you can make predictions about how the disease would spread or about how you could deploy vaccine programs or treatment programs to try to prevent its spreading."&lt;br /&gt;&lt;br /&gt;The study of network effects grew out of a 1967 experiment conducted by the Yale psychologist &lt;/span&gt;&lt;a href="http://www.stanleymilgram.com/"&gt;&lt;span style="font-size:85%;"&gt;Stanley Milgram&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;.&lt;br /&gt;&lt;br /&gt;Milgram instructed 300 randomly selected people around the country to send important packages to recipients they did not know.&lt;br /&gt;&lt;br /&gt;The "senders" were given clues about the recipients, such as their general geographic locations and occupations. Based on those clues, the senders were instructed to forward the packages to someone else they thought might be "closer" to the intended recipients. This process was repeated until the letters finally reached the correct people.&lt;br /&gt;&lt;br /&gt;Milgram published a paper in Psychology Today that said that the letters that made it to their intended destinations passed through an average of about six sets of hands. The six-degrees-of-separation school of thought was born.&lt;br /&gt;&lt;br /&gt;The phrase "six degrees of separation" was made famous by playwright John Guare, who wrote a play of the same name (later made into a film) about a young black man who scams an upscale New York couple into believing he's Sidney Poitier's son and a classmate of their children. He does the same to other members of the upscale Upper East Side community, and since they are all connected, they discover the scam.&lt;br /&gt;Film buffs came up with a parlor game that challenges players to connect other actors to &lt;/span&gt;&lt;a href="http://www.cs.virginia.edu/oracle/"&gt;&lt;span style="font-size:85%;"&gt;Kevin Bacon&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt; by six degrees.&lt;br /&gt;&lt;br /&gt;The concept also influenced science. In 1996, &lt;/span&gt;&lt;a href="http://www.smallworld.sociology.columbia.edu/watts.html"&gt;&lt;span style="font-size:85%;"&gt;Duncan Watts&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt; applied the idea to his doctorate research on the mating chirps of crickets.&lt;br /&gt;&lt;br /&gt;Watts wanted to understand how large groups of crickets synchronized their chirps. He realized they do this not by listening to the whole group but to their close neighbors. Gradually, a chain reaction occurs as each cricket synchronizes its chirping with a nearby cricket and so on down the line. The phenomenon, he concluded, is another example of the six-degrees effect in action.&lt;br /&gt;&lt;br /&gt;When he and his advisor at Cornell, Steve Strogatz, published a paper on the phenomenon in Nature, it caused a stir. Researchers in various disciplines -- from business to computing to epidemiology -- wondered if network effects might apply to them as well.&lt;br /&gt;&lt;br /&gt;Watts eventually wrote two books on network effects, Small Worlds in 1999, and in February he published &lt;em&gt;Six Degrees: The Science of a Connected Age&lt;/em&gt;.&lt;br /&gt;&lt;br /&gt;Others have written on the role of network effects in the spread of epidemics, including &lt;/span&gt;&lt;a href="http://www.nd.edu/~alb/"&gt;&lt;span style="font-size:85%;"&gt;Albert-Laszlo Barabasi&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;, a professor of physics at the University of Notre Dame and author of Linked.&lt;br /&gt;&lt;br /&gt;"The small-world property is bad news for all viruses: it means that if the virus is not contained, and very virulent, it could, in principle, reach every single person on earth," said Barabasi. "I do not need to know an individual to pass the virus to him. It is enough to be close to him."&lt;br /&gt;&lt;br /&gt;Despite the flurry of interest in network effects, the six-degrees-of-separation theory itself came into &lt;/span&gt;&lt;a href="http://www.uaf.edu/northern/big_world.html"&gt;&lt;span style="font-size:85%;"&gt;question&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt; in 2001. A researcher named Judith Kleinfeld, a professor of psychology at the University of Alaska at Fairbanks, dug up the Yale data and found that only 29 percent of the packages Milgram sent actually made it to their recipients, and some that did make it required more than six intermediaries.&lt;br /&gt;&lt;br /&gt;Kleinfeld couldn't find any evidence that the world, or even the country, is connected by six degrees. Other studies, like &lt;/span&gt;&lt;a href="http://www.tjm.org/articles/msg00009.html"&gt;&lt;span style="font-size:85%;"&gt;Watt&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;'s, she argues, use variations on Milgram's original study. They were more likely to achieve a network effect, she said, because they took place in smaller communities, such as high-rise apartment buildings, a specific urban area or a college campus.&lt;br /&gt;&lt;br /&gt;But researchers say the size of the group doesn't matter. For the network researcher, what's important is the ability to define the essential characteristics of the network itself.&lt;br /&gt;&lt;br /&gt;In Meyers' study, that would include the people with whom SARS patients and their caregivers come in contact. Using that information, Meyers can create a model for predicting the effectiveness of proposed strategies for fighting the disease.&lt;br /&gt;&lt;br /&gt;"Despite questions surrounding the original (Milgram) experiment," Meyers said, "there is no doubt that network models of various biological, sociological and technological systems can offer great insights."&lt;br /&gt;&lt;br /&gt;&lt;span style="color:#999999;"&gt;data source :&lt;br /&gt;http://www.wired.com/news/print/0,1294,58985,00.html&lt;/span&gt;&lt;/span&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111044129243251972?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111044129243251972/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111044129243251972&amp;isPopup=true' title='2 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111044129243251972'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111044129243251972'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/03/behind-six-degrees-of-sars.html' title='Behind the Six Degrees of SARS'/><author><name>林盈谷</name><uri>http://www.blogger.com/profile/17993201709814773112</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='32' src='http://photos1.blogger.com/img/192/4037/320/DSCF7184.427.jpg'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111034481772529915</id><published>2005-03-09T12:53:00.000+08:00</published><updated>2005-03-16T14:49:50.396+08:00</updated><title type='text'>Knowledge: The Essence of Meta Data : Six Degrees of Separation of Our Assets</title><content type='html'>&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;Six degrees of separation is the theory that all of us can be connected to any other person on the planet through a chain of acquaintances that has no more than five intermediaries. The theory was first proposed in 1929 by the Hungarian writer Frigyes Karinthy in a short story called "Chains." In 1967, American sociologist Stanley Milgram devised a new way to test the theory, which he called "&lt;span style="color:#ff0000;"&gt;the small-world problem.&lt;/span&gt;" He randomly selected people in the Midwest to send packages to a stranger located in Massachusetts. The senders knew the recipient's name, occupation and general location. They were instructed to send the package to a person they knew on a first-name basis who they thought was most likely, out of all their friends, to know the target personally. That person would do the same and so on, until the package was personally delivered to its target recipient. Although the participants expected the chain to include at least a hundred intermediaries, it only took (on average) between five and seven intermediaries to get each package delivered. Milgram's findings were published in Psychology Today and inspired the phrase "six degrees of separation."&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;In 2001, Duncan Watts, a professor at Columbia University, continued his own earlier research into the phenomenon and recreated Milgram's experiment on the Internet. Watts used an e-mail message as the "package" that needed to be delivered and, surprisingly, after reviewing the data collected by 48,000 senders and 19 targets (in 157 countries), Watts found that the average number of intermediaries was indeed, six. Watts' research, and the advent of the computer age, has opened up new areas of inquiry related to six degrees of separation in diverse areas of network theory such as power grid analysis, disease transmission, graph theory, corporate communication and computer circuitry. (Special thank you to What is.com for filling in the gaps.)&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;Let's bring it home to the corporation. We make the claim that there are millions of technical assets within the corporation. Obviously, the way in which we define "asset" can increase or decrease that number. Suppose we have 2,000 systems or applications within the corporation, with an average of 15 tables, 10 fields and 10 elements of meta data. This would generate 3 million data assets alone. Not to mention the relationships between assets, schemas, components, programs, interfaces, Web pages, metrics, business rules, etc. Is it any wonder we have so much trouble determining what we have, where it is, who uses it, when is it accessed and how you can access the same asset. Do you see where we are going with this logic? Yes, I could make the statement that any asset, &lt;span style="color:#ff0000;"&gt;yes, any asset that you select is only six degrees from another asset.&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;Let's test the theory on the movie industry. Can we find a relationship between Vivien Leigh from Gone with the Wind and Tobey Maguire of Spider Man fame?&lt;br /&gt;Vivien Leigh was in Deep Blue Sea, The (1955) with Arthur (I) HillArthur (I) Hill was in Amateur, The (1981) with Ed LauterEd Lauter was in Seabiscuit (2003) with Tobey Maguire&lt;br /&gt;Here is the link, try it yourself. &lt;/span&gt;&lt;a href="http://oracleofbacon.org/oracle/star_links.html" target="_blank" el="http://oracleofbacon.org/oracle/star_links.html" lid="http://oracleofbacon.org/oracle/star_links.html"&gt;&lt;span style="font-size:85%;"&gt;http://oracleofbacon.org/oracle/star_links.html&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:85%;"&gt;. The longest length I could find was four but I am sure there are longer ones. Kevin Bacon has an average of 2.946 for all of the 645,957 actors in the database. 13 of them actually require eight jumps but I challenge you to find one. Other than having fun, what does this say about our organization and the web of assets we have created?&lt;br /&gt;The data warehouse provides an excellent application for impact analysis and our six degree test. Suppose we have a data warehouse that collects information from three to four sources and feeds a couple of data marts. See Figure 1.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;img src="http://www.dmreview.com/editorial/online/columnists/0904/091604_stephens_1.gif" /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#000066;"&gt;Figure 1: Simple Example of Degree of Separation&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#000066;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;In this example we can relate Customer_Name to CustName by a series of relationships (transformations).&lt;br /&gt;Customer_Name from the CRM application is transformed (Transformation A) into CustomerName in the data warehouse.CustomerName in the data warehouse is transformed (Transformation B) into CustName in the data mart. &lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;In fact, ETL or field to field mappings are at the heart of impact analysis of a data warehouse. The problem, as with the movie database, is that it only contains a single type of relationship. (i.e., starring in a movie). What about actors that are related such as Kirk and Michael Douglas? How about marriage relationships such as Michael and Catherine Zeta-Jones? How about people that live on the same street in Hollywood or attend the same church? The magic of the degrees of separation package described at the beginning of this article was that all types of relationships were taken into account, not just family members or neighbors. The power wasn't in the detailed meta data but the diversity of relationships. &lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;Data management provides not just one type of relationships but many including: domain, transformation, taxonomy, function and location. The real question isn't that we couldn't hire a consultant or assign an employee to the task of identifying these relationships, but how are they utilized. Does your meta data solution provide the functionality that is required to document these relationships? What value would come from having a system that can relate and document these relationships? The reality is that we haven't been very good at collecting and utilizing relationships. I have enjoyed watching the growth of the Internet over the past few years. The growth from a usage and content perspective has not surprised me. The ease at which organizations have jumped on the Web demonstrates that anyone that can understand HTML can publish a site. What has surprised me is that we have done a crappy job at defining relationships between these artifacts of information. The number of Web pages on the Internet may, only slightly, out number the quantity of assets in a major corporation. Thus, we have a similar problem. &lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;How much longer are we going to determine who is using technology by simply turning it off and seeing who screams? Don't laugh, we all know that is exactly how it is done when you have a half-hearted effort to understand the meta data environment. What happens when a production application goes down and the CEO asks what the impact of the outage is? I hope your answer won't be "Well, only three people have called to complain." The repository isn't just about capturing information and loading into a meta-model. The relationship between assets is as important as the core descriptive information. When you consider the number of assets and the different types of relationships, you can see how complex this job can be. If we could solve the relationship problem then I would be going for an IPO with the world's best relationship engine. Sorry Google, that mathematical, keyword and linkage relationship business model will be destroyed by someone in the next five years.&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;span style="color:#666666;"&gt;data source :&lt;br /&gt;&lt;/span&gt;&lt;a href="http://www.dmreview.com/article_sub.cfm?articleId=1010448" target="blog"&gt;&lt;span style="color:#666666;"&gt;http://www.dmreview.com/article_sub.cfm?articleId=1010448&lt;/span&gt;&lt;/a&gt;&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111034481772529915?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111034481772529915/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111034481772529915&amp;isPopup=true' title='1 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111034481772529915'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111034481772529915'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/03/knowledge-essence-of-meta-data-six.html' title='Knowledge: The Essence of Meta Data : Six Degrees of Separation of Our Assets'/><author><name>林盈谷</name><uri>http://www.blogger.com/profile/17993201709814773112</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='32' src='http://photos1.blogger.com/img/192/4037/320/DSCF7184.427.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-9797373.post-111034235834485792</id><published>2005-03-09T12:25:00.000+08:00</published><updated>2005-03-17T13:55:59.173+08:00</updated><title type='text'>應用資料採礦技術於網際網路使用者資訊偏好分析之研究</title><content type='html'>&lt;span style="font-size:85%;"&gt;&lt;span style="color:#000000;"&gt;&lt;br /&gt;(一) 資料採礦與資料庫知識探索&lt;br /&gt;&lt;br /&gt;　　由於資訊科技的進步，企業得以大量的收集及儲存資料。但累積的大量資料不僅佔用空間，並無法直接增加企業的價值。以往純粹由專家分析與解釋資料的方式，也因資料量、屬性與維度急遽的增加而變得越來越困難。所以，有效的從巨大資料庫中自動的發現知識，更進一步整合成企業不可或缺的商業智慧，逐漸成為二十一世紀企業所必須面臨的重要課題。&lt;/span&gt; &lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;　　&lt;span style="color:#000066;"&gt;資料庫知識探索（Knowledge Discovery in Database；KDD）是指在大量資料中，發現知識的整個程序與步驟。資料庫知識探索的定義為一連串的程序，這些程序能在資料中找出資料的模式，並且這些模式對使用者而言，必須是合理的、新奇的、含有可用性的且是可以被理解的[9]。&lt;/span&gt;簡單的說，資料庫知識探索就是自資料庫中萃取出有用知識的一連串程序。資料採礦是資料庫知識探索中，一個能有效率的將資料模式、法則，自資料中找出來的一個程序。&lt;br /&gt;&lt;br /&gt;　　資料採礦是在資料庫中尋找可靠的、有意義的以及容易解釋的樣式[17,10] 。Frawley等人[11]認為資料採礦是從資料庫中挖掘出不明確、前所未知以及潛在有用的資訊過程。Grupe及Owrang[11]認為資料採礦是指由以存在的資料中挖掘出新的事實及發現專家尚且不知的新關係。Berry及Linoff[17]認為資料採礦就是使用自動或半自動的方式對大量資料作分析，以找出有意義的關係或法則。Fayyad[8]認為資料採礦屬於資料庫中的資料庫知識探索的一部份。因此，&lt;span style="color:#ff0000;"&gt;資料採礦是找出隱藏在資料中的趨勢特徵及相關性的過程&lt;/span&gt;。&lt;span style="color:#009900;"&gt;透過資料採礦技術，從巨量的資料庫中，找出不同且有用的資訊與知識支援企業決策分析，將能提昇企業的競爭優勢&lt;/span&gt;[17,3]。資料採礦的內涵包括了資料庫系統、知識庫系統、機器學習、統計學、人工智慧、不確定推論等。因此，可以說資料採礦是由這些領域知識中整合出來的定理、演算法或方法[10]。 &lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;(二) 網頁探勘的定義與種類&lt;br /&gt;&lt;br /&gt;　　網際網路已成為今日最大眾化，且具互動性的重要資訊傳播媒體。然而其大量的、多樣化的的資料呈現特性，與使用者的大量增加，使得使用者不易以瀏覽器與搜尋引擎等工具，取得真正符合需求的資訊，更難有效萃取有用的知識[14,6]。另一方面，網際網路發展的同時也造成汲取資訊與資訊超載的問題[15]。因此，網頁探勘（Web Mining）的相關概念被大量提出。Etzioni[7]對網頁探勘的定義為&lt;span style="color:#000066;"&gt;使用資料採礦技術自動地由網路文件或服務中發現與萃取資訊&lt;/span&gt;。網頁探勘應用資料採礦的相關技術，以期能在龐大資料庫中找出有用的資訊[5]。此外，Madria[18]與Borges[1]等人針對網頁探勘加以分類，並提出網頁探勘的分類架構。在這個架構中，他們將網頁探勘分成&lt;span style="color:#006600;"&gt;網頁內容探勘&lt;span style="color:#333333;"&gt;（Web Content Mining）&lt;/span&gt;、網頁結構探勘&lt;span style="color:#333333;"&gt;（Web Structure Mining）&lt;/span&gt;網頁使用探勘&lt;span style="color:#333333;"&gt;（Web Usage Mining）&lt;/span&gt;三部分。&lt;/span&gt; &lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;　　&lt;span style="color:#ff0000;"&gt;&lt;strong&gt;網頁內容探勘&lt;/strong&gt;&lt;/span&gt;&lt;span style="color:#663366;"&gt;是在探索Web內容所敘述的資訊中所隱藏的知識。它是自Web本身的內容、資料、文件中探索與發現有用的資訊，其中所謂的網頁內容包含了多樣性的資料型態與不同的服務與資料來源，如Ftp、Gopher等。&lt;span style="color:#ff0000;"&gt;&lt;strong&gt;網頁結構探勘&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="color:#993300;"&gt;主要是試著發現網頁間的連結結構下的模型[2]。這些模型是基於由超連結所連結成的拓撲（Topology）圖形而來。&lt;/span&gt;&lt;span style="color:#ff0000;"&gt;&lt;strong&gt;網頁使用探勘&lt;/strong&gt;&lt;/span&gt;&lt;span style="color:#663366;"&gt;是從網站伺服器存取紀錄中，取得網站與代理伺服器紀錄檔、瀏覽器紀錄檔、使用者簡歷與註冊資料，去探索使用者上網行為的模式[5,14]。此方式可用來找出瀏覽者瀏覽行為的樣式。本研究即以使用者於網站的瀏覽行為，作為使用者偏好推測的基礎。 &lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;br /&gt;&lt;span style="color:#999999;"&gt;data source：&lt;/span&gt;&lt;/span&gt;&lt;span style="color:#999999;"&gt;&lt;br /&gt;&lt;span style="font-size:85%;color:#999999;"&gt;&lt;a href="http://www.if.itri.org.tw/content05/03if42b.htm" target="blog"&gt;http://www.if.itri.org.tw/content05/03if42b.htm&lt;/a&gt;&lt;/span&gt;&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/9797373-111034235834485792?l=duskknight.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://duskknight.blogspot.com/feeds/111034235834485792/comments/default' title='Post Comments'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=9797373&amp;postID=111034235834485792&amp;isPopup=true' title='2 Comments'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111034235834485792'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/9797373/posts/default/111034235834485792'/><link rel='alternate' type='text/html' href='http://duskknight.blogspot.com/2005/03/blog-post.html' title='應用資料採礦技術於網際網路使用者資訊偏好分析之研究'/><author><name>林盈谷</name><uri>http://www.blogger.com/profile/17993201709814773112</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='32' src='http://photos1.blogger.com/img/192/4037/320/DSCF7184.427.jpg'/></author><thr:total>2</thr:total></entry></feed>
