數據和算力如此珍貴,人工智能的未來在區塊鏈上!區塊鏈
風頭正勁的三種企業技術無疑是人工智能、區塊鏈和物聯網,它們背后的驅動因素都是數據。數據獲取之難,成本之高昂,帶來了準入壁壘,限制了現有企業和其他大型企業對新解決方案的研究。區塊鏈數據生態系統改變了這一狀況。
在我的職業生涯的開始,我曾經是一名數據科學家,我早期的項目之一就是分析阿爾茨海默病患者的原始人類基因數據。當時這個項目有許多事情令我們深感痛苦;我們不得不逐個招募參與者加入我們的項目,對基因組進行測序以獲得數據,我們從研究經費中花費超過一百萬。我們不得不自己搭建一個昂貴的計算集群,甚至連每次迭代的簡單回歸分析也要耗費數天才能完成。我對這事印象特別深刻:花了幾個禮拜的時間來設計我們的工程數據結構,優化數據庫設置,手工重寫分析算法(因為我們超出了 RAM 的限制),先是為了分析進行計算,然后要求幾天完成而不是幾個月。結果從那以后,發生了很多變化。
目前,風頭正勁的三種企業技術無疑是人工智能、區塊鏈和物聯網,它們背后的驅動因素都是數據;人們甚至宣稱:“數據就是新的石油!”新數據能夠使數據的收集、共享、分析以及基于這些數據的決策自動化成為可能,而這在以前基本上是一個數據價值鏈。
數據價值鏈
在這三種技術中,區塊鏈技術是將各種技術組合在一起,并且還出現了一個由數據驅動的區塊鏈項目組成的完整生態系統。這種分散的生態系統旨在鼓勵人們貢獻數據、技術資源和努力:
第一代項目專注于創建連接和集成數據的數據基礎設施,如 IOTA。IoT Chain、IoTex(用于連接的 IoT 設備的數據)或 Streamr(用于數據流)。
第二代項目專注于創建數據市場,例如 Ocean 協議、SingularityNet 或 Fysical,以及群體數據標注平臺,例如 Gems 或 Dbrain。
隨著解決方案涵蓋了數據價值鏈成熟的第一步,我的朋友 @sherm8n 和 Rahul 開始研究 Raven 協議,這是第一個第三代項目,它將縮小在分析階段的一個重要差距:用于人工智能訓練的計算資源。
據 OpenAI 最近的一份報告稱(http://u6.gg/e6XWV):“在最大規模的人工智能訓練中使用的計算量呈指數級增長,增加了 3.5 個月的時間”,這是自2012年以來的 30 萬倍增長。
OpenAI 報告:人工智能與計算
由此產生的直接后果是:
更高的成本,因為使用的計算速度比供應更快;
更長的新解決方案的交付時間,因為模型訓練所需時間更長;
更高的市場準入壁壘,更難獲得資金和資源。
對小型企業和研究人員來說,這些后果是可怕的,因為這樣一來,限制了他們在沒有大量資金的情況下創建有競爭力的模型的能力。就算有資金,如果供應商視他們為競爭對手,他們就有可能被列入資源黑名單。
但是,考慮到資源的增長率和人工智能工作的增長率都在成倍增加,即便是大型企業也會感到成本增長帶來的壓力。在過去的幾個月里,我與《財富》500 強公司的一些首席數據官促膝長談,盡管他們認為這一問題不足為慮,但也不得不承認,可以用比購買 HPC 資源更好的方式進行投資。
區塊鏈生態系統 的美妙之處在于,它可以利用其他未使用的資源,完成本不可能進行的貿易資源的交易,還可以使人們參加原本無法參與的市場活動。從經濟角度來看,它提高了對現有資源的利用率。
在第一代和第二代數據區塊鏈解決方案中,若使用這種解決方案,可以降低訪問帶注釋的質量數據的障礙,Raven 協議將解決這種由訓練帶來的成本挑戰。阻礙這條眾所周知的鏈得以維系的鴻溝,正被 Raven 協議抹平,而這條鏈的堅固程度取決于它最薄弱的環節(提示:這是數據價值鏈)。
總之,這個區塊鏈數據生態系統中的解決方案創造了新的機會并降低了成本。尤其是第二個關鍵因素,它降低了新創新的準入門檻,讓更多的人能夠做出貢獻,從而有望加速我們整個社會的進步。
如果上面所說的一切聽上去有點抽象的話,那么你只需看看人工智能可以發揮作用的領域就會明白了:醫療。我們的全球醫療體系正陷入嚴重的困境。成本正呈爆炸式增長,盡管成本已經達到一個國家 GDP 的 18%,但預計未來十年將會增長 117%。與此同時,新藥的研究也正面臨風雨飄搖的處境。
為了保證平價醫保,我們的醫療系統需要大量的創新才能實現這一點,人工智能解決方案有很多可以幫助達到這一目標。因此,醫療保健是人工智能投資最多的行業,多年來一直如此。
CBInsights:2018 年人工智能狀況
然而,數據獲取之難,成本之高昂,帶來了準入壁壘,限制了現有企業和其他大型企業對新解決方案的研究。區塊鏈數據生態系統改變了這一狀況,為我們帶來了及時找到正確解決方案的機會。Raven 協議可能不會是最后一個這樣的機會,但卻是實現這一目標的重要基石。
Raven 協議簡介
對于深度學習研究者來說,計算能力非常關鍵,但 CPU 和 GPU 資源往往是有限的。Raven 協議正是解決這一問題的良方。Raven 協議可以利用空閑的計算資源來訓練深度神經網絡,而這些資源均來自個人用戶設備的分享。分享空閑計算資源進行深度學習訓練的概念可以為資源使用者節約大量的研究成本,而資源的貢獻者則可以得到 Raven 幣(RAV)作為補償 / 回報。
近年來,盡管人工智能和機器學習領域里關于民主化和去中心化的呼聲越來越高,這些領域中的項目開發卻沒有真正地應用這些概念。開發者和企業家們形成了一種思維定式,即只要大量使用深度學習作為工具,就能改善產品質量和用戶體驗。然而,深度學習項目的經濟規?;?、產品化會受到計算資源的限制。這些限制對于大型科技公司當然不是問題。大公司有條件訪問海量數據,而且坐擁龐大的計算資源,完全可以輕松應對計算密集型任務,從而推進自己的 AI 研發工作。同時,他們提出了 AI 的“民主化”概念,用以補償他們所欠下的技術債務,并聲稱這會對廣大 AI 社區有所幫助。因此,AI 社區便擁有了訪問大型 GPU 集群的權限,并有機會學習機器學習技術、使用開源框架以及觀看 MOOC 在線課程。
然而,這場技術狂歡之下隱藏的問題卻鮮有人發現。對高級 AI 解決方案的突然增長的需求使得這一問題凸顯出來——計算能力的經濟規?;?。
當前深度學習存在的困境
在一個普通的、計算能力有限的計算機上訓練一個 AI/ML 模型往往需要數周甚至數月的時間。對于更好的計算芯片(GPU)的需求是一個必須考慮的成本因素。密集和頻繁地使用高速計算資源來操作計算數據、計算和更新深度神經網絡中不同神經元的梯度,其需要的成本往往是小型到中型公司和開發者無法擔負的。云計算在一定程度上對這一問題有所幫助,但獲取云資源來支持 AI 研發仍是一筆難以負擔的開支。目前,在絕大部分云計算平臺上,每小時所需支付的金額都在 2.5~17 美元之間。
對于中小型企業來說,要解決算力資源問題最簡單的方式是通過眾包。眾包這一概念從很早之前便開始挑戰傳統經營模式,就像《圣經》中并不強壯的勇士大衛戰勝巨人哥利亞一樣,以小勝大、以弱勝強,使得計算資源服務更加便宜、更加容易獲得。Uber 和 Airbnbs 就是通過眾包存活下來的“大衛”的代表。AI 世界也注意到了這種優秀的模式。Kaggle 平臺的開發就是通過眾包,利用海洋協議(Ocean Protocol)來收集數據。AI 生態系統非常歡迎這種新方法。而 Raven 協議的目標就是將眾包火炬傳遞下去,通過對空閑計算資源的充分利用,建立第一個真正去中心化、分布式的深度學習訓練系統,使深度學習模型的訓練更為經濟。
希望進行技術革新的 AI 愛好者和企業家們現在可以從 AI 研究中有所收獲了,因為眾包資源可以解決計算資源短缺難題。AI 社區中的許多成員,如 Singularity.net、Ocean Protocol、OpenMind、Deep Brain Chain 等等,都建立起了資源共享平臺,用于在安全的區塊鏈內共享計算和數據資源,進而助力機器學習 / 深度學習算法向商業模型的轉變。
Raven 協議成功建立起了去中心化、激勵性和安全的機器學習 / 深度學習模型訓練機制。
深度神經網絡的“去中心化、分布式”訓練
經過幾十年的發展,傳統的神經網絡相關算法已進化為深度神經網絡(DNN),并在各種應用領域取得了巨大成功,尤其是模式識別領域。
這種基于訓練的方法的理論局限是,一個 DNN 架構怎樣在一個節點上訓練、在多個不同的服務器上應用,或分割成數個部分并分發到數個服務器上訓練。顯然,這種訓練方式極其消耗算力,所以只能在強大的 GPU 和服務器上進行操作。Raven 解決這一問題的方式是裝配動態節點分配機制,對網絡中的設備進行分工。這樣,Raven 就可以消除主節點的所有依賴,并顯著地減少任務所需的計算能力。
Raven 協議相較于其他相似規則的突出之處在于它處理異步更新及數據碎片的并行所產生的延遲的方法。這種延遲問題用其他方案無法解決,而且延遲在模型訓練過程中是一個主要耗時因素,可能會消耗數周甚至數月。即使是擁有大量計算資源,對這一問題也無能為力。另外,如果想要讓數據實現并行化,用戶必須擁有可處理龐大計算資源的平臺。這一因素使得規模較小的用戶群無法訪問該平臺。
Raven 可以成功地將模型訓練過程中所需的數量龐大的小型異步運算,搭建為一個動態圖。
空閑計算能力的激勵分享機制
Raven 協議允許個人用戶貢獻、分享空閑設備的計算資源,使得研究者對性能強大的 CPU 或 GPU 硬件的需求降到最低。分享空閑計算資源來進行訓練的概念,會大大降低成本。作為補償 / 回報,計算資源的分享者們會得到 Raven 幣(RAV)。 只需要在以太坊區塊鏈中通過智能合同進行兩步簡單的校驗,這種激勵機制便可實現。
未來的趨勢
經濟的 AI 規?;头e極的實驗
由于沒有資本支出,Raven 所提供的計算服務的價格將遠低于市場上的任何供應商。由于在貢獻者 / 主機節點上沒有任何依賴,資源的獲取將變得更為高效和快捷。使用 Raven 的公司可以進行在線 AI 實驗,并根據市場需求對 AI 產品進行規?;鵁o需將大量的錢投進硬件這個無底洞里。
統一的生態系統
Raven 已經認識到,接下來的最大問題是如何在生態系統中交易已有合作者的數字貨幣。為確保使用方便,RAV 幣將在 Raven 生態系統內和其他合作服務間均可交易。所有人都仍可以在 Raven 內部使用其他合作服務幣。這可以使區塊鏈中的其他 AI 社區積極參與 Raven 協議。 絕大部分人還沒有意識到,AI 社區中的一小部分人正在為使 AI 觸手可得、為所有人所用而不懈奮斗著。這是因為他們堅信,AI 將會以我們可能想像不到的各種方式融入我們的生活,變成我們生活的一部分。常規的 AI 公司以及想要在自己系統中應用 AI 的公司,都在努力用 AI 改善著我們的生活,但他們可能會由于資源的局限,難以大展拳腳。Raven 的目標就是幫助這樣的個人及公司,讓他們能夠經濟地充分發掘自身在 AI 方面的潛力,實現 AI 夢想。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。