??
Redshift是一個CUDA應(yīng)用程序,這意味著它目前只適用于NVidia GPU。從游戲級GPU,我們推薦最新一代TitanX Pascal 12GB或GTX1070 / GTX1070Ti / GTX1080 / GTX1080Ti GPU?;蛘呤钱?dāng)前的RTX2070,RTX2080或RTX2080Ti GPU。從專業(yè)級GPU,我們推薦上一代Quadro P5000,P6000,GP100,GV100 GPU或下一代Quadro RTX GPU。除了Quadro GV100和Quadro RTX6000 / RTX8000(它們是目前市場上最快的GPU)之外,就Redshift而言,GeForces和Quadros之間沒有性能差異。與GeForces相比,Quadros可以更快地渲染視口OpenGL,但這不會影響Redshift的渲染性能。 Quadros對GeForces的一個主要優(yōu)勢是它們通常擁有更多的板載VRAM。例如,唯一提供24GB VRAM的NVidia GPU是Quadro M6000,Quadro P6000和Quadro RTX6000。 Quadro GV100每GPU提供高達32GB的容量,而Quadro RTX8000提供48GB的VRAM。這是很多VRAM! ??
使用Redshift,可以在同一臺計算機上混合使用GeForce和Quadro GPU。
GTX GPU和Titan / Quadro / Tesla GPU之間的一個重要區(qū)別是 TCC驅(qū)動程序可用性。 TCC的意思是“Tesla計算集群”。它是由NVidia for Windows開發(fā)的一種特殊驅(qū)動程序。它繞過了Windows顯示驅(qū)動程序模型(WDDM),允許GPU以更快的速度與CPU通信。 TCC的缺點是,一旦啟用它,GPU就會變得對Windows和3D應(yīng)用程序(例如Maya,Houdini等)“隱形”。它成為CUDA應(yīng)用程序的專用,如Redshift。只有Quadros,Teslas和Titan GPU才能啟用TCC。 GeForce GTX卡無法使用它。如上所述,TCC僅對Windows有用。 Linux操作系統(tǒng)不需要它,因為Linux顯示驅(qū)動程序不會遇到通常與WDDM相關(guān)的延遲。換句話說,默認情況下,Linux上的CPU-GPU通信比所有NVidia GPU上的Windows(使用WDDM)更快,無論是GTX卡還是Quadro / Tesla / Titan。
考慮到在撰寫本文時,單個TitanX的成本約為GTX1080的兩倍,用戶經(jīng)常會問的問題是“哪一個更好?一個TitanX還是兩個GTX1080?“那么,就原始計算能力而言,兩款GTX1080將擊敗單一的TitanX。但是如果您要渲染的場景是多邊形(超過150萬以上的多邊形),我們建議獲得11-12GB或更高的GPU。請參閱下一節(jié)有關(guān)VRAM及其優(yōu)點的部分。
如果在同一臺計算機上安裝多個GPU,Redshift將渲染得更快。擁有多個GPU需要特殊的主板/ CPU /設(shè)置注意事項,本文檔后面將對此進行概述。
?
回顧一下:
-
你需要更多的VRAM嗎?如果是這樣,Titan / Quadro / Tesla是您的正確選擇您
-
是否需要TCC(即在Windows上更快的渲染)?如果是這樣,Titan / Quadro / Tesla是您的正確選擇
-
如果您不需要上述任何一種,多個GTX GPU(成本相同)將提供更多的原始計算能力
?
VRAM(即顯卡顯存)足夠多時它對性能有何不同?
?
NVidia GPU配置為4GB / 6GB / 8GB / 11GB / 12GB / 24GB / 48GB VRAM。假設(shè)未來的GPU將具有更多VRAM,這是安全的。那么特定用戶的VRAM數(shù)量是多少?
Redshift的一般經(jīng)驗法則是“VRAM越多越好”。然而,具有更多VRAM的視頻卡也更昂貴。下面的文字解釋了Redshift如何使用VRAM,以便用戶在選擇GPU時做出明智的決定。
在VRAM利用方面,Redshift非常有效。它能夠在大約1GB的視頻內(nèi)存中容納大約2千萬到3千3百萬個三角形。如果一個場景包含3億個三角形(渲染時,渲染器會自己將多邊形接三角形計算),Redshift通常需要大約10GB的VRAM。但即使是具有8GB VRAM的GPU也可以使用Redshift渲染如此高的多邊形場景,因為它 具有核外架構(gòu) (請參閱我們的在線常見問題解答,了解“超出核心”)。但是,過多的核外數(shù)據(jù)訪問有時會導(dǎo)致相當(dāng)大的性能損失。因此,在渲染高多邊形場景時,最好有足夠的VRAM。
Redshift的核心技術(shù)并未涵蓋所有可能的數(shù)據(jù)類型。目前,Redshift無法以核外方式存儲卷網(wǎng)格(例如OpenVDB)。這意味著使用數(shù)百兆字節(jié)的OpenVDB數(shù)據(jù)的場景可能需要具有更多VRAM的GPU,否則幀渲染將被中止。
擁有大量VRAM的另一個好處是Redshift的“自動內(nèi)存管理”功能。如果場景沒有使用太多多邊形,則可以啟用“自動內(nèi)存管理”設(shè)置,并允許Redshift渲染速度更快。該設(shè)置位于Redshift的“Memory”選項卡中。它允許Redshift與CPU的通信頻率較低,從而提高了渲染性能。有關(guān)此設(shè)置的更全面說明,請參閱Redshift的在線文檔或論壇。
?
擁有大量VRAM的另一個好處是能夠同時運行多個GPU應(yīng)用程序。 Maya的OpenGL視口,Chrome(網(wǎng)絡(luò)瀏覽器)和Windows本身等應(yīng)用程序可能會消耗大量的VRAM,并且?guī)缀鯖]有內(nèi)存供Redshift使用。顯然,這對包含大量VRAM的GPU來說不是一個問題。對于無法負擔(dān)具有大量VRAM的GPU的用戶,可能的解決方法是安裝額外的(更便宜的)GPU,用于除Redshift之外的所有內(nèi)容。然后,剩余的GPU可以與監(jiān)視器斷開連接,因此可以使整個VRAM可用于使用Redshift進行渲染。斷開GPU與監(jiān)視器的連接稱為“無頭模式”。
?
VRAM容量的主題通常是購買更昂貴的11-12GB GPU與更便宜的8GB GPU之間的決定性因素。
?
最后,應(yīng)該注意的是,多個GPU的VRAM 沒有 組合在一起!即如果你的系統(tǒng)上安裝了4GB GPU和8GB GPU,這些 不會 增加到12GB!每個GPU只能使用自己的VRAM。盡管引入了NVLink,但未來可能會發(fā)生變化。 NVLink是一個“橋接器”,可以將兩個GPU連接在一起,以便它們可以共享彼此的內(nèi)存。這會帶來性能損失,在某些情況下可能會或可能不會很大。 Redshift今天不支持NVLink,但我們正在計劃(并已開始工作)實施它。
回顧一下:
-
您是否將使用額外的GPU進行OpenGL / 2D渲染?如果沒有,那么更喜歡具有更多VRAM的GPU
-
更多VRAM也意味著更快的渲染
-
您是否會渲染沉重(1.5億個場景或大量的OpenVDB或粒子)?如果是這樣,更喜歡具有更多VRAM的GPU
-
VRAM不會跨多個GPU組合
?
?
主板
?
用于加速渲染的經(jīng)濟高效的解決方案是為您的計算機添加更多GPU。這是與CPU渲染解決方案相比,GPU渲染更具成本效益的原因之一。與購買額外的計算機和軟件許可證(包括Redshift許可證)相比,添加額外的GPU(或更多!)更便宜!
如果您今天為Redshift構(gòu)建計算機并預(yù)計將來會添加更多GPU,我們建議您選擇具有4個PCIe3.0 x16插槽或更多插槽的主板。請注意,有些主板會聲稱有4個PCIe3.0 x16插槽,但它們的規(guī)格會說(x16,x16),(x8,x8,x8,x8)。這意味著“如果你有兩個GPU,它們都將以x16速度運行,但如果你有4個GPU,則每個GPU將以x8速度運行”。換句話說,即使主板有4個插槽,它們也不能同時以全速x16速度運行。
你絕對需要(x16,x16,x16,x16)嗎?沒有! Redshift與(x8,x8,x8,x8)運行良好,但在某些情況下x16速度可能會對性能有所幫助。這包括DeepEXR渲染或渲染場景,執(zhí)行大量的核外渲染,即GPU需要訪問CPU內(nèi)存的情況。即使在這些情況下,也不要指望x16和x8插槽之間存在巨大的性能差異。未來的NVidia GPU(Pascal)將能夠更有效地使用CPU內(nèi)存,因此,在這些情況下,額外的x16速度可能會產(chǎn)生更大的差異。換句話說,PCIe x16的規(guī)劃目前更像是一個面向未來的選擇,而不是現(xiàn)實世界的優(yōu)勢選擇。
請注意,即使所選主板聲稱擁有許多支持PCIe x16的插槽,您也需要一個合適的CPU來實現(xiàn)這一性能! (見下文)
回顧一下:
-
如果您要在每臺計算機上添加多個GPU,請選擇具有多個快速PCIe x16插槽的主板。
?
?
CPU?
我們建議CPU具有足夠的單線程性能。最好是擁有內(nèi)核更少但比更多內(nèi)核和更低GHz更高頻率的CPU。即,與6核3.5 GHz CPU相比,Redshift的8核2.5GHz CPU將更糟糕。我們建議工作頻率為3.5GHz或更高的CPU。
并非所有CPU都能以全PCIe x16速度驅(qū)動4個GPU。 CPU具有稱為“PCIe通道”的功能,該功能描述了CPU和GPU之間的數(shù)據(jù)通信速度。某些CPU的PCIe通道數(shù)少于其他CPU。例如,Core i7-5820K 3.3GHz有28個PCIe通道,而i7-5930K 3.5GHz有40個PCIe通道。這意味著5930K可以以更高的速度驅(qū)動更多的GPU。我們建議CPU具有更多PCIe通道。我們不推薦Core i5,Core i3或低端CPU。
如果在同一主板上有多個CPU(如Xeons),則CPU的PCIe通道將合并在一起。雙Xeon系統(tǒng)可以全速輕松驅(qū)動8個GPU。
回顧一下:
-
Redshift更關(guān)心GHz而不是核心數(shù)量
-
如果您要安裝多個GPU,請查看更高端的Core i7
-
如果您要安裝4個以上的GPU,您可能需要考慮雙Xeon解決方案
-
避免i5,i3和低端CPU
?
外部GPU機箱
?
我們曾經(jīng)測試過Redshift的唯一外部機箱是Cubix Xpander Elite,性能非常好!我們一次測試了1,2,3和4個GPU。我們發(fā)現(xiàn)它是穩(wěn)定的,而且非常重要的是,與直接在計算機主板上安裝GPU相比,我們無法衡量性能損失。如果您的計算機沒有足夠的PCIe插槽,并且您希望GPU可移植,GPU擴展器也會非常有用。
請注意,并非所有外部機箱都適合Redshift!有些人可能會引入PCIe通信延遲,這可能會對Redshift的性能產(chǎn)生負面影響!我們建議您在購買之前使用所選的機箱測試Redshift,即使其他GPU渲染器可能運行良好!與其他GPU渲染器相比,Redshift的軟件架構(gòu)要求GPU與CPU進行更頻繁的通信,因此機箱的性能(延遲)非常重要!
?
PSU /散熱
?
請遵守CPU / GPU的功率要求并選擇合適的PSU。在計算機中安裝4個GPU可能需要1000W PSU 或者更強大的PSU!沒有足夠功率的低質(zhì)量PSU或PSU可能會導(dǎo)致GPU不穩(wěn)定和崩潰,更不用說GPU損壞了!
請注意,在一臺計算機上安裝4個GPU會產(chǎn)生大量的熱量,因此請確保機箱冷卻/通風(fēng)良好。如果通風(fēng)不足,GPU可能會進行熱節(jié)流并自行降頻,以免燒壞。限制/降頻意味著渲染速度變慢!當(dāng)然,高溫意味著電子設(shè)備的使用壽命更短。所以冷卻很重要!
?
多GPU
?使用Redshift和多個GPU渲染時,您有兩個選擇:可以使用所有GPU渲染單個幀,也可以使用GPU的組合一次渲染多個幀。
在某些情況下,使用所有可用GPU渲染單個幀可以產(chǎn)生非線性性能增益。例如:與使用1 GPU渲染相比,4 GPU可能無法快速渲染4倍。他們可能會提高3倍的速度。這是因為有一定數(shù)量的每幀CPU處理涉及到無法通過添加額外的GPU來加速。
為了更好地解釋這一點,請考慮以下示例。讓我們假設(shè)從Maya中提取場景數(shù)據(jù)(僅在CPU上發(fā)生)需要10秒,渲染需要60秒才能執(zhí)行1 GPU。因此總渲染時間為70秒。現(xiàn)在,如果要添加另外3個GPU(總共4個GPU),則將純渲染時間的60秒除以4,即15秒。但是你根本不會將10秒的提取時間分開,因為所有這些都是在CPU上完成的!因此,總渲染時間將是10秒+ 15秒= 25秒與原始70秒相比。即3倍而不是4倍。
在其他情況下,更多的GPU無法提供幫助,例如從磁盤加載數(shù)據(jù)。更糟糕的是,某些CPU處理階段是單線程的。這意味著安裝具有多個內(nèi)核的CPU也無濟于事!
上述問題的解決方案是一次渲染多個幀。如果計算機有4個GPU,則可以一次渲染兩個幀,每個幀使用2個GPU。這有助于解決這個問題,因為當(dāng)你一次渲染多個幀時,你就迫使你的CPU做更多的工作(例如,一次提取多個幀),這通常會提高CPU-GPU的性能比。
一些渲染管理器(如Deadline)支持這種開箱即用的Redshift功能。截止日期中,該功能稱為“GPU親和力”?;蛘?,如果您沒有使用渲染管理器并且更喜歡使用自己的批渲染腳本,請閱讀此論壇帖子以獲取有關(guān)如何從命令行渲染并使用GPU子集的信息:https://www.redshift3d .COM /論壇/ viewthread / 1713 /。這基本上是Deadline和其他渲染管理器在幕后選擇Redshift中的GPU。
回顧一下:
-
要獲得最佳的多GPU擴展性能,請一次渲染多個幀
?
內(nèi)存?
我們建議至少擁有系統(tǒng)上安裝的最大GPU的兩倍內(nèi)存。即如果系統(tǒng)使用一個或多個TitanX 12GB,系統(tǒng)應(yīng)該至少有24GB的RAM。
如果您要一次渲染多個幀(如上一節(jié)所述),則應(yīng)相應(yīng)地增加內(nèi)存。即如果渲染1幀需要16GB,同時渲染兩幀將需要大約32GB。
回顧一下:
-
如果您要為每臺計算機安裝多個GPU,請?zhí)砑哟罅緾PU RAM
?
磁盤
?
我們建議使用快速SSD驅(qū)動器。 Redshift自動將紋理(JPG,EXR,PNG,TIFF等)轉(zhuǎn)換為自己的紋理格式,在渲染過程中加載和使用更快。那些轉(zhuǎn)換后的紋理存儲在本地驅(qū)動器文件夾中。我們建議在該紋理緩存文件夾中使用SSD,以便在渲染過程中可以快速打開轉(zhuǎn)換后的紋理文件。 Redshift可以選擇不執(zhí)行任何此緩存,只需從原始位置打開紋理(即使這是一個網(wǎng)絡(luò)文件夾),但我們不建議這樣做。有關(guān)紋理緩存文件夾的更多信息,請閱讀在線文檔。
?
回顧一下:
- 首選SSD到機械硬盤
?
網(wǎng)絡(luò)和NAS
?
Redshift的渲染速度比CPU渲染器快幾倍。這意味著您的網(wǎng)絡(luò)負擔(dān)也可能更高,就像您添加更多渲染節(jié)點一樣!如上所述,Redshift將紋理緩存到本地磁盤,因此它不會嘗試一遍又一遍地通過網(wǎng)絡(luò)加載紋理(只有在紋理發(fā)生變化時才會這樣做)。但是,其他文件(如Redshift代理)不會在本地緩存,因此將反復(fù)通過網(wǎng)絡(luò)訪問它們。在這種情況下,快速網(wǎng)絡(luò)和網(wǎng)絡(luò)附加存儲(NAS)通??梢哉9ぷ?。
?
但是,在某些情況下,用戶報告某些NAS解決方案的性能極低。由于市場上有許多NAS產(chǎn)品,我們強烈建議您通過網(wǎng)絡(luò)使用大型Redshift代理對所選NAS進行徹底測試。例如,嘗試導(dǎo)出一個包含3000萬個三角形的大型Redshift代理(曲面細分的球體可以),將其保存在網(wǎng)絡(luò)文件夾中,然后嘗試通過網(wǎng)絡(luò)路徑和本地文件在場景中使用它 – 測量兩者之間的渲染性能差異。
?
回顧一下:
- 使用Redshift進行渲染就像使用大量機器進行渲染一樣。這可能會給您的網(wǎng)絡(luò)帶來壓力。
- 徹底測試您的網(wǎng)絡(luò)存儲解決方案!其中一些有性能問題!
?
客服微信
客服QQ
客服電報