淺談數(shù)據(jù)中心冷卻技術的“前世今生”
本文轉載背景
本文轉載自微信公眾號:Deepknowledge
副標題:Sabey公司數(shù)據(jù)中心通過氣流通道封閉優(yōu)化數(shù)據(jù)中心風循環(huán)冷卻
原文作者:John Sasser
原文出處:https://journal.uptimeinstitute.com/a-look-at-data-center-cooling-technologies/
?
?
? ? ? 數(shù)據(jù)中心冷卻技術的唯一目的是維持適合信息技術設備(ITE)運行的環(huán)境條件。為實現(xiàn)這一目標需要把信息技術設備(ITE)運行過程產生的熱量轉移至冷卻散熱器。大多數(shù)數(shù)據(jù)中心的運營者都期望冷卻系統(tǒng)能夠連續(xù)可靠的運行。
? ? ? 我清楚地記得曾經和一個運行數(shù)據(jù)中心很多年的機械工程師(譯者注:暖通空調技術在美國的專業(yè)劃分上屬于機械類)的對話,他覺得大多數(shù)機械工程師并沒有真正理解數(shù)據(jù)中心的運行與設計,他解釋說,大多數(shù)暖通空調工程師在介入數(shù)據(jù)中心設計前是從事辦公室或者住宅的設計,專注于舒適性冷卻。他認為他們在那些項目設計中掌握的范式并不能很好地適用于數(shù)據(jù)中心。
? ? ? 重要的是,即使數(shù)據(jù)中心必須讓那些在里面工作的職員安全健康,也要清楚舒適性冷卻不是數(shù)據(jù)中心冷卻系統(tǒng)的主要目的。事實上,對于長期工作在數(shù)據(jù)中心里的人來說那種不舒適感完全可接受(也不足為奇)。
? ? ? 與任何精心設計的系統(tǒng)一樣,數(shù)據(jù)中心冷卻系統(tǒng)應該有效地服務于它的功能。數(shù)據(jù)中心非常耗能,很可能冷卻系統(tǒng)消耗與它服務的計算機一樣多(或更多)的能源。與之相反,一個設計和運行良好的冷卻系統(tǒng)可能只消耗信息技術設備(ITE)所用能源的一小部分。
? ? ?在這篇文章里,我將提供一些數(shù)據(jù)中心冷卻的歷史。然后討論一些數(shù)據(jù)中心冷卻的技術要素,伴隨了一些數(shù)據(jù)中心冷卻技術的比較,也包括我們Sabey數(shù)據(jù)中心使用著的一些冷卻技術。
?
摩爾定律的經濟性崩潰
? ? ? 從早期到2000年代中期,設計與運行人員一直擔心風循環(huán)冷卻技術應對越來越耗電的服務器的冷卻能力。在設計功率密度接近或超過每機柜5千瓦(kW)的情況下,一些言論認為,運營商將不得不求助于背板換熱器(譯者注:Rear-Door Heat Exchangers通常簡稱為RDHx)和其他行間冷卻(In-Row cooling)方式以跟上日益增長的功率密度。
?????2007年,Uptime Institute的Ken Brill有一個著名的預測,即摩爾定律的經濟性崩潰,他說,在沒有技術進步的情況下,隨著越來越多的晶體管集成到芯片上產生的熱量增長將使得數(shù)據(jù)中心冷卻到達不再具有經濟可行性的終點(見圖1)。
圖1.ASHRAE新數(shù)據(jù)通信設備電力圖表,2005年2月1日出版
?
? ? ? 美國國會甚至也參與進來。這表明國家領導人們已經關注到數(shù)據(jù)中心和他們的能源能耗量。國會指示美國環(huán)境保護署(EPA)提交一份關于數(shù)據(jù)中心能源消耗的報告(公法編號109-341,譯者注:實際為109-431)。這項法律另外還指示美國環(huán)境保護署(EPA)確定能效提升策略并推動相關市場。據(jù)該報告預計,除非采取能顯著提高能效的措施,否則數(shù)據(jù)中心將會大幅度增加能源消耗量(見圖2)。
圖2.圖表ES-1摘自美國環(huán)境保護署(EPA)報告(2007,8月2日)
?
?
? ? ?截止2014年,摩爾定律尚未失效。但當它失效時,最終將是因為芯片和晶體管設計中涉及的物理性限制導致,與數(shù)據(jù)中心環(huán)境無關。
? ? ? 在美國環(huán)境保護署(EPA)公布其數(shù)據(jù)中心報告的同時,工業(yè)界領袖們也注意到能效問題,信息技術設備(ITE)廠商們開始在他們的設計中除了性能之外更加注重能效;同時數(shù)據(jù)中心的設計和運營人員開始在可靠性和成本之外進行能效設計;運營商開始意識到提高能效并不需要犧牲可靠性。
?
傳統(tǒng)冷卻與架空地板的消失
? ? ?幾十年來,計算機機房和數(shù)據(jù)中心采用架空的活動地板系統(tǒng)向服務器提供冷氣流。從機房空調(CRAC)或機房空氣處理機組(CRAH)出來的冷氣流加壓架空活動地板的下面空間形成靜壓箱。風口地板則作為冷氣流離開靜壓箱進入機房主空間的方式,風口地板理想的位置是在服務器進風口的前端。冷氣流經由服務器后,產生的熱氣流通常會與冷空氣混合后返回CRAC/CRAH并再次被冷卻。更常見的是CRAC機組的設定值通過比對氣流回風溫度來控制冷卻系統(tǒng)的運行。最常見的是CRAC機組室內風機恒速運行,并且CRAC機組內配置加濕器來提供增加濕度用的蒸汽。從冷卻的觀點來看,架空活動地板的主要好處是為需要的位置提供冷氣流,而且?guī)缀醪毁M事的就可以簡單地將一塊架空活動地板換成風口地板(見圖3)。
圖3.傳統(tǒng)架空地板冷卻
?
?
? ? ?多年來這個系統(tǒng)是計算機機房和數(shù)據(jù)中心更常見的設計。至今仍在這么應用。事實上,我還發(fā)現(xiàn)許多運營人員進入現(xiàn)代數(shù)據(jù)中心看不到架空地板和CRAC機組的驚訝。
? ? ? 傳統(tǒng)機房氣流系統(tǒng)依賴于舒適性冷卻的一個原理:即通過輸送相對少量的空調調節(jié)的氣流,使這些冷氣流與房間中較大量的空氣混合以達到所需的溫度。當信息技術設備(ITE)的功率密度較低時,這個系統(tǒng)完全可以正常采用。盡管這樣的冷卻系統(tǒng)有著效率低、冷卻不均勻等等的缺點。但能滿足低功率密度的環(huán)境需求。
? ? ?就此,說架空活動地板已經過時有些夸張,因為很多公司仍在建造采用架空地板輸送氣流的數(shù)據(jù)中心。然而,越來越多的現(xiàn)代數(shù)據(jù)中心開始沒有架空地板,改進的氣流輸送技術使得架空地板變得不再那么必要。
?
足夠冷是多冷?
? ? ?“拿一件夾克?!蔽覀円C房。”
信息技術設備(ITE)電氣元件周邊的熱量必須移除,以免元件過熱。如果服務器變得太熱,控制板上的控制邏輯將會關閉服務器以避免對它造成損壞。
? ? ?ASHRAE技術委員會9.9(TC9.9)為信息技術設備(ITE)確定合適的運行環(huán)境做了大量工作。我相信他們的那些出版物,特別是《數(shù)據(jù)處理設備的熱指南》已經推動將數(shù)據(jù)中心從傳統(tǒng)數(shù)據(jù)中心的“儲肉柜”式轉向更合適的溫度。[原文作者備注:ASHRAE技術委員會TC9.9熱指南推薦數(shù)據(jù)處理設備入口氣流溫度在18-27°C之間,相對濕度(RH)在20-80%之間來滿足制造商已有的標準。UptimeInstitute則進一步建議將上限降低到25°C,從而可以允許運行中的一定的意外與變工況,或者補償溫度傳感器、控制系統(tǒng)固有的誤差。
? ? ?明白TC 9.9的熱指南是基于服務器入口溫度而不是服務器內部溫度,不是室溫,當然也不是服務器出風溫度非常重要。另外理解推薦和允許的運行環(huán)境概念也很重要。
? ? ?如果服務器一直太熱,但不至于熱到它自己關閉,它的壽命可能會減少。一般來說,這種減少的壽命是服務器經歷的高溫和該高溫環(huán)境持續(xù)時間的函數(shù)。通過提出一個更寬泛的允許范圍,ASHRAE TC 9.9表明信息技術設備(ITE)每年可以有更多的時間運行在較高的溫度下。
? ? ?鑒于技術更新每3年會發(fā)生一次,信息技術設備(ITE)運行人員應該考慮它們的壽命減少與運行環(huán)境有著怎樣的相關性。答案可能取決于特定情況下的細節(jié)。在更新率為4年或更少的齊次計算環(huán)境下,增加溫度導致的失效率可能不足以去推動改進冷卻設計,特別是如果制造商在比較高的機房溫度下還會保修他們的信息技術設備(ITE)。而在期望設備具有較長壽命的混合計算環(huán)境下,溫度可能需要保證投入更多的關注。
? ? ?除了溫度,濕度和污染物也會影響信息技術設備(ITE)。當信息技術設備(ITE)長期運行在不能接受的環(huán)境中,特別容易被濕度和污染物影響導致不良結果。當然,在極端情況下(比如有人把一桶水或泥土倒在電腦上),你們立馬就能看到后果。
? ? ?低濕度產生的問題涉及到靜電(ESD)。類似大多數(shù)人經歷過的,在干燥(濕度較低)的環(huán)境下,ESD很容易產生。然而,數(shù)據(jù)中心低濕度的ESD影響已另外分析清楚。在“數(shù)據(jù)中心的濕度控制是必須的嗎?”(ASHRAE通訊,2010年3月),Mark Hydeman和David Swenson寫道,只要信息技術設備(ITE)有外機箱,ESD就不是一個真正的隱患。另一種情況下,去掉ITE的外機箱,即使嚴格的進行濕度控制也不能保證不產生ESD。技術員去除外機箱后對內部元件進行操作時應該佩戴防靜電腕帶。
? ? ?另一方面,高濕度確實對信息技術設備(ITE)構成了現(xiàn)實隱患。雖然冷凝水絕不應該出現(xiàn),但在大多數(shù)數(shù)據(jù)中心它并不是一個重大隱患。主要的隱患來自濕的灰塵顆粒?;旧?,較高的濕度使得空氣中的灰塵更容易粘附在計算機中的電氣元件上。一旦灰塵粘附,就會阻礙散熱以及很可能對那些元件造成腐蝕。阻礙散熱的后果非常類似于高溫。
? ? ?還有一些與污染物有關的隱患。比如灰塵會覆蓋電子元件,阻礙散熱。其中有一類灰塵,稱為鋅晶須,是導電的。在電鍍鋅架空地板上非常容易產生鋅晶須。鋅晶須可以被空氣傳播并帶到計算機里。由于它們能夠導電,可以在微小的內部元件中造成破壞性短路。UptimeInstitute在一篇題為“架空地板生成的鋅晶須正引起導電故障和設備宕機”的文獻中記載了這一現(xiàn)象。
? ? ?除了物理顆粒污染物所帶來的隱患外,還有與氣體污染物有關的隱患。某些污染性氣體對電子元器件有腐蝕性。
?
冷卻過程
? ? ?冷卻過程可分解為如下步驟:
? ? ?1.服務器冷卻。從信息技術設備??
? ? (ITE)帶走熱量
? ? ?2.房間冷卻。從承載信息技術設備
? ?(ITE)的房間帶走熱量
? ? 3.散熱。熱量轉移至數(shù)據(jù)中心外部? ? ? 的散熱設備
? ? 4.冷卻制冷。通過散熱設備冷卻后
? ? 的流體返回至白空間,從而保持空
? ? 間合適的環(huán)境條件。
?
服務器冷卻
? ? ?信息技術設備(ITE)的電子元件消耗電力轉化為熱量,這是牛頓物理定律:輸入的電能與產生的熱能能源守恒。當我們說服務器用電,我們的意思就是指服務器的電子元件正有效的把能源狀態(tài)從電能態(tài)改變成熱能態(tài)。
? ? ? 服務器內固體(電氣部件)熱量傳遞至流體(典型的是空氣)通常通過另一個固體(服務器內的熱沉),信息技術設備(ITE)的風扇吸入空氣經由內部元件從而驅動傳熱。
? ? ?一些系統(tǒng)使用液體從信息技術設備(ITE)吸收并帶走熱,通常這種液體的載熱性能比空氣更高效。我曾經見過三類這樣的系統(tǒng):
? ? ?? 液體與熱沉接觸。液體流動通過服務器與內部的熱沉接觸,從而從信息技術設備(ITE)吸收熱量并轉移。
? ? ?? 浸沒冷卻。信息技術設備(ITE)元件浸沒在非導電液中。非導電液吸收熱量并從元件轉移。
? ? ?? 相變非導電流體。非導電液噴霧冷卻信息技術設備(ITE)的元件。液體相變成氣態(tài)將熱量帶至另一個熱交換器,熱交換器內的氣態(tài)被換熱帶走熱量后相變變回液體。
? ? ?在這篇文章中,我將重點放在風冷信息技術設備(ITE)的系統(tǒng),因為這是迄今為止工業(yè)界更普遍采用的方法。
?
房間冷卻
? ? ?傳統(tǒng)的數(shù)據(jù)中心設計中,氣流從服務器吸收熱然后與房間的其他空氣混合,最終回到CRAC/CRAH機組。氣流通過空調盤管時進行熱交換將熱量傳遞至CRAC/CRAH機組內的流體。對于CRAC,流體是制冷劑。對于CRAH,流體是冷凍水。制冷劑或冷凍水帶走機房熱量。CRAC/CRAH出來的冷空氣通常溫度為55-60°F(13-15.5°C)。CRAC / CRAH送出氣流至架空地板下的靜壓箱,一般采用恒速風機。許多制造商和設計師的標準CRAC/CRAH配置是基于回風溫度來控制機組的冷卻運行。
?
設計布局與散熱方式
? ? ?雖然在沒人關注能效的低熱密度房間架空地板與自然冷卻效果良好,然而無法滿足熱密度和能效增長的需求,至少達不到過去那樣的效果。我曾在一個傳統(tǒng)數(shù)據(jù)中心用溫度表測量溫度,在一個機架底部溫度測得大約是60°F(15.5°C),同一機架頂部溫度則接近80°F(26°C),另外還計算了一下PUE遠遠超過2。
? ? ?人們開始去使用更佳實踐以及包括熱通道與冷通道,吊頂回風靜壓箱,架空地板管理和服務器盲板在內的技術來提高架空地板環(huán)境的冷卻性能。這些方法肯定有益,運營者應該進行采用。
? ? ?大約在2005年,設計專家和運行人員開始試驗氣流通道封閉法。這個想法很簡單,使用物理屏障將服務器入口冷氣流與服務器排出的熱氣流分隔。冷送風和熱排風不再混合帶來了很多優(yōu)點,包括:
? ? ??更一致的入口氣流溫度
? ? ??可以提高供應白色空間的氣流溫度,增加了能效提高的選項。
? ? ?返回至空調盤管的氣流溫度更高,通常使得空調運行更有效率。
? ? ?房間可容納更高熱密度的設備。
? ? 理想情況下,在這樣一個物理屏障封閉了的環(huán)境,氣流以適合信息技術設備(ITE)運行的溫度和濕度離開空氣處理設備后只通過信息技術設備(ITE)設備一次,然后就返回空氣處理設備再次冷卻。
?
熱通道封閉Vs冷通道封閉
在冷通道封閉系統(tǒng)中,封閉來自空氣處理機組的冷氣流,同時服務器熱排氣允許自由返回至空氣處理機組。在熱通道封閉系統(tǒng)中,熱排氣被封閉并返回至空氣處理機組,通常通過吊頂回風通道返回(見圖4)。
圖4.熱通道封閉
未來預測(Crystal Ball)
? ? ?雖然仍在建造和部署非常高功率密度的信息技術設備(ITE),但是大多數(shù)信息技術設備(ITE)的功率密度并沒有跟上10年前建造項目時的預計增長。Sabey公司6年前設計的數(shù)據(jù)中心平均150瓦/平方英尺,并且公司還沒理由去進行增加。當然,Sabey的數(shù)據(jù)中心可以在需要的地方有限度的容納更高的功率密度。
? ? ?在不久的將來,我期望帶封閉通道的基于空氣的冷卻系統(tǒng)繼續(xù)成為數(shù)據(jù)中心冷卻的選項。從長遠來看,見到越來越多采用液冷的冷卻技術我也不會奇怪。
?
總結
? ? ? Sabey公司開發(fā)和運營的數(shù)據(jù)中心擁有眾多不同行業(yè)和各種規(guī)模的客戶。作為一家服務提供商,Sabey公司通常不知道客戶需要的技術或布局。Sabey公司的各個數(shù)據(jù)中心依托所處位置區(qū)域的氣候條件采用不同的冷卻技術。在氣候溫和的西雅圖、半干旱氣候的華盛頓中部和紐約市中心都有數(shù)據(jù)中心,他們坐落于單層新建建筑和改造的高層建筑內。
? ? ?盡管有著這些變化和不確定性,但Sabey公司的數(shù)據(jù)中心設計與運行都有一些共性。都采用不設架空地板的熱通道封閉技術,都有為服務器出口熱氣流服務的吊頂回風通道與為服務器入口氣流服務的開放式房間。這些數(shù)據(jù)中心都采用某種形式的節(jié)能器。Sabey公司盡可能為風機、水泵與冷水機組采用變速電機,從而實現(xiàn)即使在輕負載條件下也能能效運行。
? ? ? Sabey已經采用了帶有熱通道封閉的多種不同的冷卻系統(tǒng),并且我更喜歡在適合的地理區(qū)域采用IDEC空氣處理機組(話說這款產品正是業(yè)界有口皆碑的蒙特為數(shù)據(jù)中心量身打造的典范之作哦)。我們發(fā)現(xiàn)這是一種耗水量比其名稱含義更小的非常有效的系統(tǒng)。大部分時間這套系統(tǒng)運行在干式換熱器模式。該系統(tǒng)相對實現(xiàn)了非常簡單的控制程序,并且那種簡單性還提高了系統(tǒng)的可靠性。在市政設施服務中斷時該系統(tǒng)能夠快速重啟,一旦發(fā)電機啟動提供了電力,風扇就會繼續(xù)旋轉并加速。儲水槽里有著儲存的水,于是蒸發(fā)冷卻過程基本上沒有重啟時間。Sabey已經成功無故障的冷卻著35-40 kW的機柜。
? ? ?除非廣泛采用液冷服務器,否則目前主要的節(jié)能途徑仍然是優(yōu)化風循環(huán)冷卻氣流,采用封閉通道。
本文翻譯:郜衛(wèi)華
?