集群的速率
⑴ 「分布式」與「集群」的區別是什麼
(1)另外一位博主的觀點(http://blog.csdn.net/bluishglc/article/details/5483162)
博主有對他的表述有作一點修改補充,方便各位猿友明了他的意思。
簡單說,分布式是以縮短單個任務的執行時間來提升效率的,而集群則是通過提高單位時間內執行的任務數來提升效率。
例如:
如果一個任務由10個子任務組成,每個子任務單獨執行需1小時,則在一台伺服器上執行改任務需10小時。
採用分布式方案,提供10台伺服器,每台伺服器只負責處理一個子任務,不考慮子任務間的依賴關系,執行完這個任務只需一個小時。(這種工作模式的一個典型代表就是Hadoop的Map/Rece分布式計算模型)
而採用集群方案,同樣提供10台伺服器,每台伺服器都能獨立處理這個任務。假設有10個任務同時到達,10個伺服器將同時工作,10小後,10個任務同時完成,這樣,整身來看,還是平均1小時完成一個任務!(注意這里的任務和子任務的區別)
(2)知乎(https://www.hu.com/question/20004877)
這個猿友描述得很簡單明了:
分布式:一個業務分拆多個子業務,部署在不同的伺服器上
集群:同一個業務,部署在多個伺服器上
另外一位猿友從另外一個角度去表述:
集群是個物理形態,分布式是個工作方式。
這位猿友的描述也很簡潔,但是比較抽象:
按照我的理解,集群是解決高可用的,而分布式是解決高性能、高並發的
(3)網路(http://ke..com/view/4804677.htm、http://ke..com/view/3022776.htm)
集群:
集群是一組相互獨立的、通過高速網路互聯的計算機,它們構成了一個組,並以單一系統的模式加以管理。一個客戶與集群相互作用時,集群像是一個獨立的伺服器。集群配置是用於提高可用性和可縮放性。
分布式:
一種基於網路的計算機處理技術,與集中式相對應。由於個人計算機的性能得到極大的提高及其使用的普及,使處理能力分布到網路上的所有計算機成為可能。分布式計算是和集中式計算相對立的概念,分布式計算的數據可以分布在很大區域。
看完這些是不是有種似懂非懂的感覺?博主也是一樣!所以我們接下來繼續了解。
上面博主有說過自己有接觸過分布式服務框架Dubbo,那麼我們看看它為什麼說自己是分布式服務架構?(http://bbo.io/User+Guide-zh.htm#UserGuide-zh-%E8%83%8C%E6%99%AF)
分布式服務架構
當垂直應用越來越多,應用之間交互不可避免,將核心業務抽取出來,作為獨立的服務,逐漸形成穩定的服務中心,使前端應用能更快速的響應多變的市場需求。
此時,用於提高業務復用及整合的 分布式服務框架(RPC) 是關鍵。
偶然之間,有發現據說「Git就是分布式版本控制系統」,為什麼它是分布式的呢?
Git就是分布式版本控制系統,對應的是集中式的版本控制如SVN。簡單的說,分布式的版本控制就是每個人都可以創建一個獨立的代碼倉庫用於管理,各種版本控制的操作都可以在本地完成。每個人修改的代碼都可以推送合並到另外一個代碼倉庫中。而像SVN這樣,只有一個中央控制,所有的開發人員都必須依賴於這個代碼倉庫。每次版本控制的操作也必須鏈接到伺服器才能完成。很多公司喜歡用集中式的版本控制是為了更好的控制代碼。如果個人開發,就可以選擇Git這種分布式的。
從一般開發者的角度來看,git有以下功能:
1、從伺服器上克隆完整的Git倉庫(包括代碼和版本信息)到單機上。
2、在自己的機器上根據不同的開發目的,創建分支,修改代碼。
3、在單機上自己創建的分支上提交代碼。
4、在單機上合並分支。
5、把伺服器上最新版的代碼fetch下來,然後跟自己的主分支合並。
6、生成補丁(patch),把補丁發送給主開發者。
7、看主開發者的反饋,如果主開發者發現兩個一般開發者之間有沖突(他們之間可以合作解決的沖突),就會要求他們先解決沖突,然後再由其中一個人提交。如果主開發者可以自己解決,或者沒有沖突,就通過。
8、一般開發者之間解決沖突的方法,開發者之間可以使用pull 命令解決沖突,解決完沖突之後再向主開發者提交補丁。
看了分布式服務框架Dubbo和分布式版本控制系統Git的這些描述後,細想一下,似乎和上面的「分布式:一個業務分拆多個子業務,部署在不同的伺服器上,集群:同一個業務,部署在多個伺服器上」的觀點些相似。
Dubbo將核心業務抽取出來,作為獨立的服務模塊,各個模塊之間只需要依賴介面,介面實現分離,那麼開發人員可以各自完成自己負責的服務模塊,最後完成一個完整的系統。他們的目標是完成一個系統,而各個子服務模塊相當於子業務。Git也類似。
事實上,分布式很多時候都開不了集群的,在Dubbo、Hadoop、Elasticsearch都有體現。
現在分布式概念可能我們相對比較清晰了,集群概念可能還比較模糊。另外,集群是如何跟分布式配合的呢,接下來我們繼續了解集群。
集群主要分成三大類 (高可用集群, 負載均衡集群,科學計算集群)
高可用集群( High Availability Cluster)
負載均衡集群(Load Balance Cluster)
科學計算集群(High Performance Computing Cluster)
1、高可用集群(High Availability Cluster)
常見的就是2個節點做成的HA集群,有很多通俗的不科學的名稱,比如」雙機熱備」, 「雙機互備」, 「雙機」。
高可用集群解決的是保障用戶的應用程序持續對外提供服務的能力。 (請注意高可用集群既不是用來保護業務數據的,保護的是用戶的業務程序對外不間斷提供服務,把因軟體/硬體/人為造成的故障對業務的影響降低到最小程度)。
2、負載均衡集群(Load Balance Cluster)
負載均衡系統:集群中所有的節點都處於活動狀態,它們分攤系統的工作負載。一般Web伺服器集群、資料庫集群和應用伺服器集群都屬於這種類型。
負載均衡集群一般用於相應網路請求的網頁伺服器,資料庫伺服器。這種集群可以在接到請求時,檢查接受請求較少,不繁忙的伺服器,並把請求轉到這些伺服器上。從檢查其他伺服器狀態這一點上看,負載均衡和容錯集群很接近,不同之處是數量上更多。
3、科學計算集群(High Performance Computing Cluster)
高性能計算(High Perfermance Computing)集群,簡稱HPC集群。這類集群致力於提供單個計算機所不能提供的強大的計算能力。
高性能計算分類:
3.1、高吞吐計算(High-throughput Computing)
有一類高性能計算,可以把它分成若干可以並行的子任務,而且各個子任務彼此間沒有什麼關聯。象在家搜尋外星人( SETI@HOME – Search for Extraterrestrial Intelligence at Home )就是這一類型應用。
這一項目是利用Internet上的閑置的計算資源來搜尋外星人。SETI項目的伺服器將一組數據和數據模式發給Internet上參加SETI的計算節點,計算節點在給定的數據上用給定的模式進行搜索,然後將搜索的結果發給伺服器。伺服器負責將從各個計算節點返回的數據匯集成完整的 數據。因為這種類型應用的一個共同特徵是在海量數據上搜索某些模式,所以把這類計算稱為高吞吐計算。
所謂的Internet計算都屬於這一類。按照 Flynn的分類,高吞吐計算屬於SIMD(Single Instruction/Multiple Data)的范疇。
3.2、分布計算(Distributed Computing)
另一類計算剛好和高吞吐計算相反,它們雖然可以給分成若干並行的子任務,但是子任務間聯系很緊密,需要大量的數據交換。按照Flynn的分類,分布式的高性能計算屬於MIMD(Multiple Instruction/Multiple Data)的范疇。
下面說說這幾種集群的應用場景:
高可用集群這里不多作說明。
想Dubbo是比較偏向於負載均衡集群,用過的猿友應該知道(不知道的可以自行了解一下),Dubbo同一個服務是可以有多個提供者的,當一個消費者過來,它要消費那個提供者,這里是有負載均衡機制在裡面的。
搜索引擎Elasticsearch比較偏向於科學計算集群的分布計算。
而到這里,可能不少猿友都知道,集群的一些術語:集群容錯、負載均衡。
我們以Dubbo為例:
集群容錯(http://bbo.io/User+Guide-zh.htm#UserGuide-zh-%E9%9B%86%E7%BE%A4%E5%AE%B9%E9%94%99)
Dubbo提供了這些容錯策略:
集群容錯模式:
可以自行擴展集群容錯策略,參見:集群擴展
Failover Cluster
失敗自動切換,當出現失敗,重試其它伺服器。(預設)
通常用於讀操作,但重試會帶來更長延遲。
可通過retries="2"來設置重試次數(不含第一次)。
Failfast Cluster
快速失敗,只發起一次調用,失敗立即報錯。
通常用於非冪等性的寫操作,比如新增記錄。
Failsafe Cluster
失敗安全,出現異常時,直接忽略。
通常用於寫入審計日誌等操作。
Failback Cluster
失敗自動恢復,後台記錄失敗請求,定時重發。
通常用於消息通知操作。
Forking Cluster
並行調用多個伺服器,只要一個成功即返回。
通常用於實時性要求較高的讀操作,但需要浪費更多服務資源。
可通過forks="2"來設置最大並行數。
Broadcast Cluster
廣播調用所有提供者,逐個調用,任意一台報錯則報錯。(2.1.0開始支持)
通常用於通知所有提供者更新緩存或日誌等本地資源信息。
負載均衡(http://bbo.io/User+Guide-zh.htm#UserGuide-zh-%E8%B4%9F%E8%BD%BD%E5%9D%87%E8%A1%A1)
Dubbo提供了這些負載均衡策略:
Random LoadBalance
隨機,按權重設置隨機概率。
在一個截面上碰撞的概率高,但調用量越大分布越均勻,而且按概率使用權重後也比較均勻,有利於動態調整提供者權重。
RoundRobin LoadBalance
輪循,按公約後的權重設置輪循比率。
存在慢的提供者累積請求問題,比如:第二台機器很慢,但沒掛,當請求調到第二台時就卡在那,久而久之,所有請求都卡在調到第二台上。
LeastActive LoadBalance
最少活躍調用數,相同活躍數的隨機,活躍數指調用前後計數差。
使慢的提供者收到更少請求,因為越慢的提供者的調用前後計數差會越大。
ConsistentHash LoadBalance
一致性Hash,相同參數的請求總是發到同一提供者。
當某一台提供者掛時,原本發往該提供者的請求,基於虛擬節點,平攤到其它提供者,不會引起劇烈變動。
演算法參見:http://en.wikipedia.org/wiki/Consistent_hashing。
預設只對第一個參數Hash,如果要修改,請配置<bbo:parameter key="hash.arguments" value="0,1" />
預設用160份虛擬節點,如果要修改,請配置<bbo:parameter key="hash.nodes" value="320" />
還有比較好奇它們是怎麼通信的?
像早期版本的Elasticsearch的話,自動發現節點機制,ES是一個基於p2p的系統,它先通過廣播尋找存在的節點,再通過多播協議來進行節點之間的通信,同時也支持點對點的交互。
而Dubbo是有個注冊中心,它支持多個注冊中心,但是推薦使用ZooKeeper。關於ZooKeeper可以自行了解,很多集群相關的框架都有使用到它。當然像Elasticsearch是自己有相應的機制實現的。
⑵ nginx 集群tomcat 速度降下來了
多年經驗來看,實際上,nginx 集群產生的速度下降問題,可以忽略不計。
你應該檢查一下nginx中的配置文件中的轉發規則,盡量使用優先順序較高的匹配規則。(相關優先度請找度娘)
同時,你也要檢查一下,由於使用了集群tomcat,那麼多個tomcat同時運行,是否對伺服器內存和CPU增加了更多壓力,還有資料庫壓力。
另外,如果都是獨立伺服器,集群的伺服器最好是處於同一個機房裡。檢查nginx伺服器與各個tomcat伺服器之間的ping值。
⑶ rac節點間最大傳輸數據速率是多少
rac節點間最大傳輸數據速率達到80M。
RAC,全稱real application clusters,譯為「實時應用集群」, 是Oracle新版資料庫中採用的一項新技術,是高可用性的一種,也是Oracle資料庫支持網格計算環境的核心技術。
Oracle RAC
RAC提供的優缺點
優點
Oracle RAC主要支持Oracle9i、10g、11g版本,可以支持24 x 7 有效的資料庫應用系統,在低成本伺服器上構建高可用性資料庫系統,並且自由部署應用,無需修改代碼。在Oracle RAC環境下,Oracle集成提供了集群軟體和存儲管理軟體,為用戶降低了應用成本。當應用規模需要擴充時,用戶可以按需擴展系統,以保證系統的性能。
(1)多節點負載均衡;
(2)提供高可用:故障容錯和無縫切換功能,將硬體和軟體錯誤造成的影響最小化;
(3)通過並行執行技術提高事務響應時間----通常用於數據分析系統;
(4)通過橫向擴展提高每秒交易數和連接數----通常對於聯機事務系統;
(5)節約硬體成本,可以用多個廉價PC伺服器代替昂貴的小型機或大型機,同時節約相應維護成本;
(6)可擴展性好,可以方便添加刪除節點,擴展硬體資源。
缺點
(1)相對單機,管理更復雜,要求更高;
(2)在系統規劃設計較差時性能甚至不如單節點;
(3)可能會增加軟體成本(如果使用高配置的pc伺服器,Oracle一般按照CPU個數收費)。
在Oracle9i之前,RAC的名稱是OPS (Oracle parallel Server)。RAC 與 OPS 之間的一個較大區別是,RAC採用了Cache Fusion(高速緩存合並)技術。在 OPS 中,節點間的數據請求需要先將數據寫入磁碟,然後發出請求的節點才可以讀取該數據。使用Cache fusion時,RAC的各個節點的數據緩沖區通過高速、低延遲的內部網路進行數據塊的傳輸。
⑷ hadoop balancer會影響集群的速度嗎
肯定會,blancer主要佔用集群的IO比較多,剛好Hadoop數據讀寫都比較依賴集群的IO。所以肯定會影響集群速度。
⑸ Hadoop集群和單機下讀取文件的速度是一樣的嗎
如果是大文件並且集群模式,hadoop會處理多個dn上的並行讀,會快。
⑹ 集群的關系
1.中國幾種數字集群技術
中國主要應用的幾種數字集群技術包括歐洲的TETRA,美國的iDEN,以及國內自主知識產權的GoTa和GT800。
(1)TETRA
TETRA是由歐洲電信標准協會(ETSI)推薦的標准。TETRA系統是一個空中介面信令開放的系統,並大量借鑒了GSM的概念。它基於TDMA方式,在25kb/s帶寬內分4個信道,採用較先進的ACELP語音編碼方式和(π/4)QPSK數字調制技術。它支持連續覆蓋和大區覆蓋,並且支持脫網直通和端到端加密功能。TETRA系統在調度功能上是比較完善的,所以它非常適合做專網,尤其是軍隊、武警、公檢法等單位。
(2)iDEN
iDEN是由摩托羅拉公司推出的,它也採用TDMA制式,在25kHz的信道上分6個時隙(已經開發出25kHz帶寬上分成12個時隙)。它的VSELP語音編碼和16QAM調制技術都比較先進。iDEN系統的起源設計就是作共網用的,所以它是集指揮調度、雙工互連、分組數據和短消息於一體的工作方式。
iDEN系統是以調度為主的,又是根據公網考慮設計的系統,所以它的基本調度系統功能包括:組呼通話、私密通話、通話提示、來電顯示。調度的先進功能包括:優先順序、緊急呼叫、狀態信息、多組掃描、區域限制、孤立站運行、調度台等。iDEN系統也有虛擬網功能,通過虛擬專網(VPN),最終用戶可以管理其終端用戶的終端配置,包括開戶,增加新業務,更改調度私密號、組號、電話號碼,重新編組以及隨時取得詳細通話清單和使用統計等。
(3)GoTa
GoTa(全球開放式集群架構)是由中興公司自主研發,基於CDMA1X技術面向新技術演進的數字集群通信系統,目標是滿足共網集群需要,兼顧專網集群應用。
GoTa系統基於CDMA多址方式,它採用16QAM和QPSK的調制方式和QCELP語音編碼技術,頻分雙工,上下行各1.25MHz帶寬,間隔45MHz。GoTa的空中介面在cdma2000技術基礎上進行了優化和改造,核心網採用獨立的分組數據域,基於A8/A9和A10/A11標准介面,可以公開並標准化。
GoTa具有一定的技術優勢,解決了基於CDMA技術實現集群業務的關鍵技術。在處理通信連接時也採用了共享的方式,減少網路處理呼叫的時延。GoTa具有快速接入、高信道效率和頻譜使用率、較高的用戶私密性、易擴展和支持業務種類多等技術優點。
在GoTa系統的設計中充分考慮了數字集群通信共網的特點,面向移動運營商開發設計,充分考慮了移動商務用戶的需求,可以用一部終端將集群調度業務、普通語音業務、分組數據業務、眾多增值業務(簡訊、定位)等多種通信服務集成於一個網路中。GoTa系統的靈活性高、性價比優異和功能全面等特徵,為運營商開辟出更多的贏利空間。
(4)GT800
GT800系統是由華為公司研發的基於GSM技術的數字集群系統。GT800是基於GPRS和GSMR技術開發的系統,其第二階段將與TD-SCDMA技術結合。華為公司研發GT800系統是面向國內數字集群市場需求,參考現有數字集群系統的業務特性,尤其是在快速呼叫、群組業務、優先順序控制、安全保密、故障弱化方面進行了大量工作,可提供滿足國內專業移動通信需求的完整集群調度業務。同時,為滿足用戶對高速數據業務的需求,GT800通過GPRS技術,實現可變速率的數據傳輸功能。GT800的第二階段通過引入TD-SCDMA,進一步提供最高速率為2Mb/s的數據業務。
GT800可以提供廣泛的業務,包括基本通話、簡訊、集群調度、優先順序搶占、快速接續以及基於位置的路由等,同時還提供基於GPRS的數據業務。GT800適合集群通信的共網運營,也適合民航、鐵道、水利、市政、交通、建築、搶險救災、礦區等專業部門自建專網。
2.3G網路的PoC業務 3G網路的PoC業務標准主要由OMA來制定,並基於3GPP和3GPP2的IMS網路架構。
(1)PoC業務概念和業務特徵
PoC是一種雙向、即時、多方通信方式,允許用戶與一個或多個用戶進行通信。該業務類似移動對講業務——用戶按鍵與某個用戶通話或廣播到一個群組的參與者那裡,接收方收聽到這個發言聲音後,可以沒有任何動作,例如不應答這個呼叫,或者在聽到發送方聲音之前,被通知並且必須接收該呼叫。在該初始語音完成後,其他參與者可以響應該語音消息。PoC通信是半雙工的,每次最多隻能有一個人發言,其他人接聽。
PoC的業務特性包括:
●PoC群組可以是預先定義的,也可以是臨時建立(Adhoc)方式的,或者類似聊天室的方式,用戶自行加入聊天組。
●用戶通過請求發言權實現發言,發言權的控制有一套嚴格控制機制。
●發言權由PoC業務實體授予,如果在一段時間(業務提供商設置)之後用戶沒有發言,發言權將會超時而失效。
●PoC業務實體可以在其他被叫用戶接受會話邀請之前,先給發起用戶發送指示,如果沒有用戶接收到媒體流,PoC參與者可以獲得提示。
●PoC可以與互聯網現有類似語音性質的業務進行交互,如在線游戲,包括音頻功能的即時消息等。
在PoC體系結構中,對用戶的發言權控制是非常重要的概念。發言權控制主要是在用戶平面來完成,基於RTP/RTCP,同時OMA又定義了RTCP的一種APP應用,稱為TBCP協議,從而實現了PoC媒體流的分發和發言權的控制。對於會話的信令控制主要是應用SIP/SDP,實現SIP注冊、路由和安全方面的管理,從而保證PoC會話的完成。
(2)IMS對PoC的支持
I MS對PoC的支持主要實現在PoC業務的注冊和安全、SIP信令路由、SIP信令壓縮、地址解析、對標識隱藏的管理以及計費等功能。
在IMS的注冊中,首先用戶建立PDP上下文,通過GPRS請求或者DNS解析過程發現IMS中的P-CSCF。P-CSCF把注冊請求轉發給I-CSCF,通過I-CSCF問詢HSS而找到S-CSCF。在S-CSCF中實現注冊過程。在這個過程中PoC用戶和S-CSCF通過AKA演算法實現雙方的認證和鑒權。
當用戶注冊和鑒權成功後,PoC用戶可以發起組呼請求。在會話邀請的SIP消息頭Contact的Tag中添加「+g.poc.talkburst」或者「+g.poc.groupad」,從而標明這是一個PoC群組會話。P-CSCF把呼叫邀請轉發給I-CSCF,問詢歸屬的S-CSCF的地址,從而把邀請轉發給S-CSCF。S-CSCF通過從HSS下載的iFC(初始過慮規則),根據業務觸發點,把會話邀請轉交給響應的PoCserver。PoCserver進行會話控制,並通過IMS把會話邀請轉發給組內其他用戶,在經過媒體授權和協商後,組呼可以建立。
PoC業務的計費基於IMS的計費框架,可以根據事件計費、組會話計費、發言計費等。
另外PoC業務還應用了IMS中的SIP信令壓縮功能,信令壓縮是為了節約鏈路資源,減少延時,在PoCClient和P-CSCF上實現SIP信令的壓縮和解壓縮。同時IMS還支持對其他用戶或部分用戶實現用戶標識隱藏。另外,在IMS中考慮到PoC會話媒體承載響應時間和媒體QoS平衡,使用了SIP信令的QoS等級。 1.技術差異
數字集群要求前後向資源共享,即在一個小區覆蓋范圍內所有同組集群用戶共同佔用一個無線和有線信道。一個信道承載的用戶數對於集群手機數量是沒有限制的,這樣可以極大的增加資源的承載能力。單信道資源情況下,理論上可以支持無窮多個集群手機進行調度。
而PoC中每一個用戶要佔用獨立的無線和有線資源,也就意味著資源佔用在業務實現時有多少用戶進入組呼,就要佔用多少信道資源,對於PTT來說要成倍地增加資源佔用。如果只有一個無線信道,則PoC業務就不能提供,至少要提供2個無線信道才能保證一對一的PoC呼叫。
2.關鍵指標差異
數字集群和PoC最根本的差異就是其關鍵指標——接續時延的差異。
PoC的接續時間一般都在2-3秒以上,有時候甚至達到10秒以上,如果用戶較多、使用頻率增加或網路信號較差,接續時間會更長。而數字集群的接續時間都被控制在1秒或者更短的時間之內,這也是數字集群一直沒有被移動公網所取代的根本原因,也是其核心的競爭力。
國外幾種數字集群網路的時延指標都在1秒之內,一般的組建立時延400ms~700ms、PTT<300ms,一般一次組呼建立和維持時間分布在5-12s即結束,而PoC基本不能滿足這種要求。
3.市場定位不同
數字集群的市場定位分為兩種:一是專業用戶市場,二是公眾用戶市場。專業的數字集群用戶一般估計為移動用戶的10%左右,按照中國3億移動用戶估算,也有3000萬用戶的數字集群市場空間。
PoC業務面對的主要是個人用戶,主導的語音和綜合業務是其創造收入的主要來源,而語音和綜合業務也是目前全球移動運營商面對競爭壓力最大的業務。
4.利潤率不同
首先,數字集群由於服務對象以政府、單位等集團客戶為主,對於價格不是十分敏感;其次,專業的集群調度業務所產生的任何收入都是在幾乎沒有競爭下產生的,同時調度業務主要在網內實現,不存在網間結算成本;另外由於專業需要,產品的可取代性很低,這些用戶的忠誠度很高,離網率很低,這些都為數字集群運營商節約一定的運營成本。
而基於移動公網的PoC業務與運營商其他業務相比基本上都是雷同的,具有可取代的特點,所以PoC業務的經營活動和產品都面臨市場的有力競爭,產品、業務價格不斷下降,利潤率不高,結算成本也占據了很大的比例,這些直接導致了產品、業務定價時必須考慮的承受底線。
5.覆蓋重點不同
數字集群客戶主要以工作為主,需要在工作區域進行有效覆蓋,比如市區室外覆蓋、工作區域的重點區域覆蓋,同時對於農村等偏遠區域集群用戶基本上沒有覆蓋需要,數字集群的這種簡單覆蓋要求完全可以利用成熟的無線通信手段予以滿足,比如所有的基站都支持大區制建網,這樣就在很大程度上節約了系統投資,對於局部重點區域的覆蓋手段也很成熟,如政府大樓,工廠總部等等,只需要較低的成本就能滿足覆蓋要求。
對於突發情況帶來的調度需求,通過孤立站運行和脫網直通就可以滿足需要,但是這種情況比例極低。
對於PoC業務來說由於用戶的移動性很大,分布很廣,可以說凡是有人存在的地方都需要進行覆蓋,所以要求大量的網路投入,即使僅僅考慮基本的覆蓋,粗略估計至少也是數字集群網路的2-4倍覆蓋投入。
6.容量需求不同
根據市場佔有率的分析,即使按照10%的比例進行考慮,足以說明數字集群對容量的要求不高,所以在建設數字集群網路初期的時候根本不必考慮容量的壓力,可以理解為在容量上數字集群系統只需要移動公網10%的容量資源,就可以正常運行並滿足數字集群用戶的容量要求,這對於建設一個數字集群網來說無疑是一大優勢。
而對於PoC業務來說,為了保證容量需求,移動運營商不得不使用小區制規劃建網,通過降低基站發射功率,下調俯仰角,降低基站天線高度等方式,增加基站密度,提高區域用戶容量。
⑺ 計算機集群能提升日常的程序運行速度嗎
集群就是多個機器聯合處理請求,如果是單線的任務,採用集群應該不能提內升,同時你要計算容負載平衡,反而還浪費時間,但多線程或並行的任務,如果均衡演算法做的好,能顯著提升處理速度。比如你說的IE,你要同時打開多個頁面,後台處理多個任務,則可以使用集群提高。
⑻ 分布式與集群的區別是什麼
簡單說,分布式是以縮短單個任務的執行時間來提升效率的,而集群則是通過提高單位時間內執行的任務數來提升效率。
例如:
如果一個任務由10個子任務組成,每個子任務單獨執行需1小時,則在一台伺服器上執行改任務需10小時。
採用分布式方案,提供10台伺服器,每台伺服器只負責處理一個子任務,不考慮子任務間的依賴關系,執行完這個任務只需一個小時。(這種工作模式的一個典型代表就是Hadoop的Map/Rece分布式計算模型)
而採用集群方案,同樣提供10台伺服器,每台伺服器都能獨立處理這個任務。假設有10個任務同時到達,10個伺服器將同時工作,10小後,10個任務同時完成,這樣,整身來看,還是1小時內完成一個任務!
以下是摘抄自網路文章:
一、集群概念
1. 兩大關鍵特性
集群是一組協同工作的服務實體,用以提供比單一服務實體更具擴展性與可用性的服務平台。在客戶端看來,一個集群就象是一個服務實體,但事實上集群由一組服務實體組成。與單一服務實體相比較,集群提供了以下兩個關鍵特性:
· 可擴展性--集群的性能不限於單一的服務實體,新的服務實體可以動態地加入到集群,從而增強集群的性能。
· 高可用性--集群通過服務實體冗餘使客戶端免於輕易遇到out of service的警告。在集群中,同樣的服務可以由多個服務實體提供。如果一個服務實體失敗了,另一個服務實體會接管失敗的服務實體。集群提供的從一個出 錯的服務實體恢復到另一個服務實體的功能增強了應用的可用性。
2. 兩大能力
為了具有可擴展性和高可用性特點,集群的必須具備以下兩大能力:
· 負載均衡--負載均衡能把任務比較均衡地分布到集群環境下的計算和網路資源。
· 錯誤恢復--由於某種原因,執行某個任務的資源出現故障,另一服務實體中執行同一任務的資源接著完成任務。這種由於一個實體中的資源不能工作,另一個實體中的資源透明的繼續完成任務的過程叫錯誤恢復。
負載均衡和錯誤恢復都要求各服務實體中有執行同一任務的資源存在,而且對於同一任務的各個資源來說,執行任務所需的信息視圖(信息上下文)必須是一樣的。
3. 兩大技術
實現集群務必要有以下兩大技術:
· 集群地址--集群由多個服務實體組成,集群客戶端通過訪問集群的集群地址獲取集群內部各服務實體的功能。具有單一集群地址(也叫單一影像)是集群的一個基本特徵。維護集群地址的設置被稱為負載均衡器。負載均衡器內部負責管理各個服務實體的加入和退出,外部負責集群地址向內部服務實體地址的轉換。有的負載均衡器實現真正的負載均衡演算法,有的只支持任務的轉換。只實現任務轉換的負載均衡器適用於支持ACTIVE-STANDBY的集群環境,在那裡,集群中只有一個服務實體工作,當正在工作的服務實體發生故障時,負載均衡器把後來的任務轉向另外一個服務實體。
· 內部通信--為了能協同工作、實現負載均衡和錯誤恢復,集群各實體間必須時常通信,比如負載均衡器對服務實體心跳測試信息、服務實體間任務執行上下文信息的通信。
具有同一個集群地址使得客戶端能訪問集群提供的計算服務,一個集群地址下隱藏了各個服務實體的內部地址,使得客戶要求的計算服務能在各個服務實體之間分布。內部通信是集群能正常運轉的基礎,它使得集群具有均衡負載和錯誤恢復的能力。
二、集群分類
Linux集群主要分成三大類(高可用集群, 負載均衡集群,科學計算集群)
高可用集群(High Availability Cluster)
負載均衡集群(Load Balance Cluster)
科學計算集群(High Performance Computing Cluster)
具體包括:
Linux High Availability 高可用集群
(普通兩節點雙機熱備,多節點HA集群,RAC, shared, share-nothing集群等)
Linux Load Balance 負載均衡集群
(LVS等....)
Linux High Performance Computing 高性能科學計算集群
(Beowulf 類集群....)
三、詳細介紹
1. 高可用集群(High Availability Cluster)
常見的就是2個節點做成的HA集群,有很多通俗的不科學的名稱,比如"雙機熱備","雙機互備","雙機"。
高可用集群解決的是保障用戶的應用程序持續對外提供服務的能力。 (請注意高可用集群既不是用來保護業務數據的,保護的是用戶的業務程序對外不間斷提供服務,把因軟體/硬體/人為造成的故障對業務的影響降低到最小程度)。
2. 負載均衡集群(Load Balance Cluster)
負載均衡系統:集群中所有的節點都處於活動狀態,它們分攤系統的工作負載。一般Web伺服器集群、資料庫集群和應用伺服器集群都屬於這種類型。
負載均衡集群一般用於相應網路請求的網頁伺服器,資料庫伺服器。這種集群可以在接到請求時,檢查接受請求較少,不繁忙的伺服器,並把請求轉到這些伺服器上。從檢查其他伺服器狀態這一點上看,負載均衡和容錯集群很接近,不同之處是數量上更多。
3. 科學計算集群(High Performance Computing Cluster)
高性能計算(High Perfermance Computing)集群,簡稱HPC集群。這類集群致力於提供單個計算機所不能提供的強大的計算能力。
3.1 高性能計算分類
3.1.1 高吞吐計算(High-throughput Computing)
有一類高性能計算,可以把它分成若干可以並行的子任務,而且各個子任務彼此間沒有什麼關聯。象在家搜尋外星人( SETI@HOME -- Search for Extraterrestrial Intelligence at Home )就是這一類型應用。這一項目是利用Internet上的閑置的計算資源來搜尋外星人。SETI項目的伺服器將一組數據和數據模式發給Internet上參加SETI的計算節點,計算節點在給定的數據上用給定的模式進行搜索,然後將搜索的結果發給伺服器。伺服器負責將從各個計算節點返回的數據匯集成完整的 數據。因為這種類型應用的一個共同特徵是在海量數據上搜索某些模式,所以把這類計算稱為高吞吐計算。所謂的Internet計算都屬於這一類。按照 Flynn的分類,高吞吐計算屬於SIMD(Single Instruction/Multiple Data)的范疇。
3.1.2 分布計算(Distributed Computing)
另一類計算剛好和高吞吐計算相反,它們雖然可以給分成若干並行的子任務,但是子任務間聯系很緊密,需要大量的數據交換。按照Flynn的分類,分布式的高性能計算屬於MIMD(Multiple Instruction/Multiple Data)的范疇。
四、分布式(集群)與集群的聯系與區別
分布式是指將不同的業務分布在不同的地方;而集群指的是將幾台伺服器集中在一起,實現同一業務。
分布式中的每一個節點,都可以做集群。 而集群並不一定就是分布式的。
舉例:就比如新浪網,訪問的人多了,他可以做一個群集,前面放一個響應伺服器,後面幾台伺服器完成同一業務,如果有業務訪問的時候,響應伺服器看哪台伺服器的負載不是很重,就將給哪一台去完成。
而分布式,從窄意上理解,也跟集群差不多, 但是它的組織比較鬆散,不像集群,有一個組織性,一台伺服器垮了,其它的伺服器可以頂上來。
分布式的每一個節點,都完成不同的業務,一個節點垮了,那這個業務就不可訪問了。
⑼ hadoop集群速度忽然變得很慢,為什麼
里假設集群中有slave1,抄slave2,slave3三個節點,其中slave3工作效率低。
一共有6個任務,需要去做,slave1和slave2執行一個任務是1分鍾,slave3執行一個任務是2分鍾。有一個前提是每個slave完成自身的任務才回去推測執行。
如果讓slave1和slave2去做,則需要3分鍾,分析如下:
slave1 slave2
3 3
3*1 3*1
並行執行總時間就是單個slave的執行時間3;
那麼三台同時去做需要4分鍾。
slave1 slave2 slave3
2 2 2
這里slave1和slave2都完成了自身的任務,已經花費了2分鍾,剩下最後一個任務考慮到數據的本地性也分給了slave3,slave3執行時間超過一分鍾時,jobtracker會覺得slave3可能沒有能力完成分配給他的任務,假設在slave1上推測執行,結果slave3結束了,就將運行在slave1上的推測執行任務kill掉,最後執行時間是4秒。
因為在推測執行的時候會兩個推測執行的任務會同時完成。
⑽ 集群和負載均衡還有F5到底有什麼區別,都指的是什麼
簡單地說,
負載均衡是一種 IT設備,它提供了一種廉價有效透明的方法擴展網內絡設備和伺服器容的帶寬、增加吞吐量、加強網路數據處理能力、提高網路的靈活性和可用性,
集群是一種部署方式,將多台負載均衡以集群方式部署來提高冗餘性,
像F5,Array等是負載均衡等IT設備的生產商。