少高潮爽了在观看奂费_奶水无码专区_欧美亚洲三级日韩_91精品国产综合香蕉_秋霞伦理电影在线_GOGO亚洲肉体艺术欣赏图片_一本一道a√无码中文字幕_免费看一级毛片无码区_内射视频网站在线观看_国产激情视频精品中文

計(jì)算機(jī)相關(guān)
新聞詳情

深度學(xué)習(xí)選什么顯卡性價(jià)比最高?看完你就不再愁!

發(fā)布時(shí)間:2020-11-02 11:51:31 最后更新:2020-11-23 10:04:08 瀏覽次數(shù):12986

如果你在從事了AI相關(guān)的工作,那你應(yīng)該就明白一件事:讓GPU執(zhí)行不同的任務(wù),最佳選擇也隨之變化,用于計(jì)算機(jī)視覺和做NLP就都不太一樣。而且,真正的業(yè)務(wù)應(yīng)用場景用云端TPU、GPU行不行?和本地GPU在處理任務(wù)時(shí)應(yīng)該如何分配,才能更省錢?這些問題我想都是大伙拿著很棘手的問題。

所以本篇文章就要讓大伙不僅了解GPU,還要讓大家在選擇各種GPU時(shí)有明確的認(rèn)識(shí)和方向!現(xiàn)在,為了幫你找到最適合的裝備,小編跟大家分享一份測評,來看看到底誰能在眾多GPU中脫穎而出?話不多說,馬上揭曉。

1、最重要的參數(shù)

針對不同深度學(xué)習(xí)架構(gòu),GPU參數(shù)的選擇優(yōu)先級(jí)是不一樣的,總體來說分兩條路線:

卷積網(wǎng)絡(luò)和Transformer:

張量核心(Tensor Core)>FLOPs(每秒浮點(diǎn)運(yùn)算次數(shù))>顯存帶寬>16位浮點(diǎn)計(jì)算能力

循環(huán)神經(jīng)網(wǎng)絡(luò):顯存帶寬>16位浮點(diǎn)計(jì)算能力>張量核心>FLOPs

這個(gè)排序背后有一套邏輯,下面將詳細(xì)解釋一下。在說清楚哪個(gè)GPU參數(shù)對速度尤為重要之前,先看看兩個(gè)最重要的張量運(yùn)算:矩陣乘法和卷積。舉個(gè)栗子,以運(yùn)算矩陣乘法A×B=C為例,將A、B復(fù)制到顯存上比直接計(jì)算A×B更耗費(fèi)資源。也就是說,如果你想用LSTM等處理大量小型矩陣乘法的循環(huán)神經(jīng)網(wǎng)絡(luò),顯存帶寬是GPU最重要的屬性。矩陣乘法越小,內(nèi)存帶寬就越重要。

相反,卷積運(yùn)算受計(jì)算速度的約束比較大。因此,要衡量GPU運(yùn)行ResNets等卷積架構(gòu)的性能,最佳指標(biāo)就是FLOPs。張量核心可以明顯增加FLOPs。Transformer中用到的大型矩陣乘法介于卷積運(yùn)算和RNN的小型矩陣乘法之間,16位存儲(chǔ)、張量核心和TFLOPs都對大型矩陣乘法有好處,但它仍需要較大的顯存帶寬。需要特別注意,如果想借助張量核心的優(yōu)勢,一定要用16位的數(shù)據(jù)和權(quán)重,避免使用RTX顯卡進(jìn)行32位運(yùn)算!

下面總結(jié)了一張GPU和TPU的標(biāo)準(zhǔn)性能數(shù)據(jù),值越高代表性能

越好。RTX系列假定用了16位計(jì)算,WordRNN數(shù)值是指長度<100的段序列的biLSTM性能。

這項(xiàng)基準(zhǔn)測試是用PyTorch 1.0.1和CUDA 10完成的。

2、性價(jià)比分析

性價(jià)比可能是選擇一張GPU最重要的考慮指標(biāo)。在攻略中,進(jìn)行了如下運(yùn)算測試各顯卡的性能:

·用語言模型Transformer-XL和BERT進(jìn)行Transformer性能的基準(zhǔn)測試。

·用最先進(jìn)的biLSTM進(jìn)行了單詞和字符級(jí)RNN的基準(zhǔn)測試。

·上述兩種測試是針對Titan Xp、Titan RTX和RTX2080 Ti進(jìn)行的,對于其他GPU則線性縮放了性能差異。

·借用了現(xiàn)有的CNN基準(zhǔn)測試。

·用了亞馬遜和eBay上顯卡的平均售價(jià)作為GPU的參考成本。

·最后,可以得出CNN、RNN和Transformer的歸一化性能/成本比值,如下所示:

在上面這張圖中,數(shù)字越大代表每一美元能買到的性能越強(qiáng)??梢钥闯?, RTX 2060比RTX 2070,RTX2080或RTX 2080 Ti更具成本效益,甚至是Tesla V100性價(jià)比的5倍以上。所以此輪的性價(jià)比之王已經(jīng)確定,是RTX 2060無疑了。不過,這種考量方式更偏向于小型GPU,且因?yàn)橛螒蛲婕也幌矚gRTX系列顯卡,導(dǎo)致GTX 10xx系列的顯卡售價(jià)虛高。此外,還存在一定的單GPU偏差,一臺(tái)有4個(gè)RTX 2080 Ti的計(jì)算機(jī)比兩臺(tái)帶8個(gè)RTX 2060的計(jì)算機(jī)性價(jià)比更高。

3、所需顯存與16位訓(xùn)練

GPU的顯存對某些應(yīng)用至關(guān)重要,比如常見的計(jì)算機(jī)視覺、機(jī)器翻譯和一部分NLP應(yīng)用??赡苣阏J(rèn)為RTX 2070具有成本效益,但需要注意其顯存很小,只有8 GB。不過,也有一些補(bǔ)救辦法。通過16位訓(xùn)練,你可以擁有幾乎16位的顯存,相當(dāng)于將顯存翻了一倍,這個(gè)方法對RTX 2080和RTX 2080 Ti同樣適用。也就是說,16位計(jì)算可以節(jié)省50%的內(nèi)存,16位 8GB顯存大小與12GB 32位顯存大小相當(dāng)。

4、云端or本地?TPU or GPU?

搞清楚了參數(shù),還有更眼花繚亂的選項(xiàng)擺在面前:

谷歌云、亞馬遜AWS、微軟的云計(jì)算平臺(tái)都能搞機(jī)器學(xué)習(xí),是不是可以不用自己買GPU?英偉達(dá)、AMD、英特爾、各種創(chuàng)業(yè)公司……AI加速芯片也有不少品牌可選。面對整個(gè)行業(yè)的圍攻分析了各家平臺(tái)的優(yōu)缺點(diǎn)。

英偉達(dá)

英偉達(dá)無疑是深度學(xué)習(xí)硬件領(lǐng)域的領(lǐng)導(dǎo)者,大多數(shù)深度學(xué)習(xí)庫都對英偉達(dá)GPU提供最佳支持。而AMD的OpenCL沒有這樣強(qiáng)大的標(biāo)準(zhǔn)庫。軟件是英偉達(dá)GPU非常強(qiáng)大的一部分。在過去的幾個(gè)月里,NVIDIA還在為軟件注入更多資源。例如,Apex庫對PyTorch中的16位梯度提供支持,還包括像FusedAdam這樣的融合快速優(yōu)化器。

但是英偉達(dá)現(xiàn)在有一項(xiàng)非??拥恼?,如果在數(shù)據(jù)中心使用CUDA,那么只允許使用Tesla GPU而不能用GTX或RTX GPU。由于擔(dān)心法律問題,研究機(jī)構(gòu)和大學(xué)經(jīng)常被迫購買低性價(jià)比的Tesla GPU。然而,Tesla與GTX和RTX相比并沒有真正的優(yōu)勢,價(jià)格卻高出10倍。這里特別注意,在選擇英偉達(dá)的顯卡時(shí),一定要區(qū)分顯卡的類型。NVIDIA主要有三個(gè)系列的顯卡:GeForce,Quadro,Tesla。

GeForce面向游戲,Quadro面向3D設(shè)計(jì)、專業(yè)圖像和CAD等,Tesla面向科學(xué)計(jì)算。GeForce面向游戲,性能高,但精度低,穩(wěn)定性比Telsa差很多。畢竟玩游戲的時(shí)候如果程序崩了也就丟個(gè)存檔,但服務(wù)器崩了沒準(zhǔn)掛掉一個(gè)公司。

Tesla從誕生之初就瞄準(zhǔn)高精度科學(xué)計(jì)算,所以Tesla嚴(yán)格意義上不是塊顯卡,是個(gè)計(jì)算加速卡。(對于不帶視頻輸出的Tesla顯卡而言,玩游戲是指望不上的)。Tesla的設(shè)計(jì)上雙精度浮點(diǎn)數(shù)的能力比起Geforce系列強(qiáng)很多,不過從深度學(xué)習(xí)的角度看,雙精度顯得不那么重要,經(jīng)典的AlexNet就算兩塊GTX580訓(xùn)練出來的。除了精度,Tesla主要面向工作站和服務(wù)器,所以穩(wěn)定性很好,同時(shí)會(huì)有很多針對服務(wù)器的優(yōu)化。當(dāng)然,Tesla系列最大的特點(diǎn)是貴。

綜上,如果在大規(guī)模集群上進(jìn)行深度學(xué)習(xí)研發(fā)和部署,Tesla是首選,尤其是M和P子系列。單機(jī)上開發(fā)的話,土豪或者追求穩(wěn)定性高的人請選Tesla,最有性價(jià)比且能兼顧日常使用的選擇是GeForce.


AMD

AMD GPU性能強(qiáng)大但是軟件太弱。雖然有ROCm可以讓CUDA轉(zhuǎn)換成可移植的C++代碼,但是問題在于,移植TensorFlow和PyTorch代碼庫很難,這大大限制了AMD GPU的應(yīng)用。TensorFlow和PyTorch對AMD GPU有一定的支持,所有主要的網(wǎng)絡(luò)都可以在AMD GPU上運(yùn)行,但如果想開發(fā)新的網(wǎng)絡(luò),可能有些細(xì)節(jié)會(huì)不支持。對于那些只希望GPU能夠順利運(yùn)行的普通用戶,并不推薦AMD。但是支持AMD GPU和ROCm開發(fā)人員,會(huì)有助于打擊英偉達(dá)的壟斷地位,將使每個(gè)人長期受益。


英特爾

一些人曾經(jīng)嘗試過至強(qiáng)融核(Xeon Phi)處理器,但體驗(yàn)讓人失望。英特爾目前還不是英偉達(dá)或AMD GPU真正的競爭對手。至強(qiáng)融核對深度學(xué)習(xí)的支持比較差,不支持一些GPU的設(shè)計(jì)特性,編寫優(yōu)化代碼困難,不完全支持C++ 11的特性,與NumPy和SciPy的兼容性差。英特爾曾計(jì)劃在今年下半年推出神經(jīng)網(wǎng)絡(luò)處理器(NNP),希望與GPU和TPU競爭,但是該項(xiàng)目已經(jīng)跳票。


?谷歌

谷歌TPU已經(jīng)發(fā)展成為一種非常成熟的云端產(chǎn)品。你可以這樣簡單理解TPU:把它看做打包在一起的多個(gè)專用GPU,它只有一個(gè)目的——進(jìn)行快速矩陣乘法。如果看一下具有張量核心的V100 GPU與TPUv2的性能指標(biāo),可以發(fā)現(xiàn)兩個(gè)系統(tǒng)的性能幾乎相同。TPU本身支持TensorFlow,對PyTorch的支持也在試驗(yàn)中。TPU在訓(xùn)練大型Transformer GPT-2上取得了巨大的成功,BERT和機(jī)器翻譯模型也可以在TPU上高效地進(jìn)行訓(xùn)練,速度相比GPU大約快56%。

但是TPU也并非沒有問題,有些文獻(xiàn)指出在TPUv2上使用LSTM沒有收斂。TPU長時(shí)間使用時(shí)還面臨著累積成本的問題。TPU具有高性能,最適合在訓(xùn)練階段使用。在原型設(shè)計(jì)和推理階段,應(yīng)該依靠GPU來降低成本??偠灾?,目前TPU最適合用于訓(xùn)練CNN或大型Transformer,并且應(yīng)該補(bǔ)充其他計(jì)算資源而不是主要的深度學(xué)習(xí)資源。


亞馬遜和微軟云GPU

亞馬遜AWS和Microsoft Azure的云GPU非常有吸引力,人們可以根據(jù)需要輕松地?cái)U(kuò)大和縮小使用規(guī)模,對于論文截稿或大型項(xiàng)目結(jié)束前趕出結(jié)果非常有用。

然而,與TPU類似,云GPU的成本會(huì)隨著時(shí)間快速增長。目前,云GPU過于昂貴,且無法單獨(dú)使用,Tim建議在云GPU上進(jìn)行最后的訓(xùn)練之前,先使用一些廉價(jià)GPU進(jìn)行原型開發(fā)。

初創(chuàng)公司的AI硬件

有一系列初創(chuàng)公司在生產(chǎn)下一代深度學(xué)習(xí)硬件。但問題在于,這些硬件需要開發(fā)一個(gè)完整的軟件套件才能具有競爭力。英偉達(dá)和AMD的對比就是鮮明的例子。

總結(jié):

總的來說,本地運(yùn)算首選英偉達(dá)GPU,它在深度學(xué)習(xí)上的支持度比AMD好很多;云計(jì)算首選谷歌TPU,它的性價(jià)比超過亞馬遜AWS和微軟Azure。訓(xùn)練階段使用TPU,原型設(shè)計(jì)和推理階段使用本地GPU,可以幫你節(jié)約成本。如果對項(xiàng)目deadline或者靈活性有要求,請選擇成本更高的云GPU。

總之,在GPU的選擇上有三個(gè)原則:1、使用GTX 1070或更好的GPU;2、購買帶有張量核心(Tensor Core)的RTX GPU;3、在GPU上進(jìn)行原型設(shè)計(jì),然后在TPU或云GPU上訓(xùn)練模型。

針對不同研究目的、不同預(yù)算,給出了如下的建議:

最佳GPU:RTX 2070

避免的坑:所有Tesla、Quadro、創(chuàng)始人版(Founders Edition)的顯卡,還有Titan RTX、Titan V、TitanXP

高性價(jià)比:RTX 2070(高端),RTX 2060或GTX 1060 (6GB)(中低端)

窮人之選:GTX 1060 (6GB)

破產(chǎn)之選:GTX 1050 Ti(4GB),或者CPU(原型)+ AWS/ TPU(訓(xùn)練),或者Colab 但小編認(rèn)為已經(jīng)有點(diǎn)丐了!

Kaggle競賽:RTX 2070

計(jì)算機(jī)視覺或機(jī)器翻譯研究人員:采用鼓風(fēng)設(shè)計(jì)的GTX 2080 Ti,如果訓(xùn)練非常大的網(wǎng)絡(luò),請選擇RTX Titans

NLP研究人員:RTX 2080 Ti

已經(jīng)開始研究深度學(xué)習(xí):RTX 2070起步,以后按需添置更多RTX 2070

嘗試入門深度學(xué)習(xí):GTX 1050 Ti(2GB或4GB顯存)

在線客服 雙翌客服
客服電話
  • 0755-23712116
  • 13822267203