人工智能十問：越來越卷的AI，未來路在何方

發布時間：2022-07-16作者來源：芯智訊瀏覽：2111

最近幾年，人工智能經歷了爆火、發展、再到最近的熱度逐漸下降，似乎人工智能已經成了大廠才能玩的游戲。

究其原因，就是人工智能的「門檻」越來越高了。

前不久，谷歌AI的代表人物Jeff Dean發表了一個新的工作，但在行業內卻引發了一陣不小的風波。究其原因，并不是工作本身有多么出色。這個研究只比[敏感詞]結果提升了0.03%，但卻花費了價值57000多美元的TPU算力，這一下就炸鍋了。

很多人說，現在的AI研究已經變成了拼算力、拼資源的代表，普通學者卷不動了。

還有很多人有這樣的疑惑：人工智能究竟給我們帶來了哪些改變？它除了下圍棋之外還會做什么，它的未來還會如何發展？

帶著這些問題，我們和馮霽博士進行了深入溝通。他是創新工場南京AI研究院的執行院長、倍漾量化創始人，在AI領域有著多年的研究經驗。通過這次對談，讓我們對AI未來的發展和落地有了新的認識。

下面的小視頻提煉了對話的亮點，文章是對于對話的整理和采編：

注：以下的“我”，指的都是馮霽博士。

1、人工智能創新，遇到天花板？

谷歌最近這個問題的確受到了挺多關注，我覺得有三個問題值得思考：

[敏感詞]，大廠開始逐漸地走向「暴力美學」，也就是用「超大規模的數據」+「超大規模的算力」，暴力探索深度神經網絡的天花板。不過，這種方法的邊界和極限在哪？

第二，從學術和科研的角度，這種方法是否是AI[敏感詞]的出路？事實上，目前已經有大量研究在探索其他的技術路線，比如怎樣做到從感知智能往認知智能去做轉變、怎樣利用比較小的數據量解決人工智能遇到的問題，等等。

第三，對于工業界的實際應用，是否真的需要如此大的算力？工業界有大量任務是非語音圖像文本相關的，這也是在倒逼著學術界去做一些比較高效的算法。

2、人工智能算法，只有深度神經網絡？

90年代之前，「人工智能」的代表技術還是以「符號主義」為主，也就是基于邏輯推理，去做Planning、Searching這樣的技術。

2010年之后，迎來了人工智能的一次重要的轉變，那就是用神經網絡技術去更好地表示這些感知類的任務。但是，目前還有大量的人工智能的「圣杯」問題沒有得到解決，比如怎樣做邏輯推理、怎樣做常識、怎樣更好地對記憶進行建模等等。

為了解決這些問題，是不是用深度神經網絡就夠？這可能是目前學術界和工業界更關心的下一個重要的方向。

3、人工智能的未來：感知 vs 認知？

所謂的「感知人工智能」，其實就是最近幾年人工智能成功落地的代表性例子，比如圖像識別、語音轉文字，以及一些文本生成的任務等。

但更重要的是，怎么從這種感知類的任務，轉向具有認知能力的任務，尤其是怎么用人工智能的方式來實現邏輯推理、實現常識，從而真正實現通用人工智能？

針對這個問題，據我所知，學術界主要有三條技術路線。

[敏感詞]，仍然沿著神經網絡這條路，通過不斷地堆數據和算力嘗試解決問題。

第二，嘗試導入符號主義的技術，也就是連接主義+符號主義的結合。

第三，繼續提升傳統的邏輯推理技術，而這條路線也是最難的。

4、數據：數字時代的石油怎么采？

數據對于人工智能工程來說，重要性已經越來越高了。工業界提出了一個新的概念，叫「以數據為中心」的開發模式。相比之下，之前叫做「以模型為中心」。

傳統情況下，工程師更多的時間會花在如何搭建一個模型、如何通過調參來讓這個系統的性能更好。但現如今，大家80%的注意力都放在如何讓數據集變得更好、如何讓訓練集變得更好、如何讓訓練集更平衡，然后讓這個模型在好的數據集上訓練，并得到比較好的結果。

隨著我們對數據隱私需求的逐漸增長，數據帶來的一些負作用以及非技術要求也越來越多了。比如當幾家機構做聯合建模的時候，出于對數據隱私的保護，數據不能夠在機構之間分享。所以像聯邦學習這樣的技術，就是為了在保護數據隱私的前提下，實現聯合建模。

現在大家已經逐漸地意識到，在具體的工業開發中每家機構不一樣的地方就是他們的數據。現在有了非常便利的軟件開源框架，也有了非常高效的硬件實現，工程師就都轉而去關注數據了——這是一個Paradigm Shift，也就是范式級別的轉變。

我自己孵化的倍漾量化，是以AI技術為核心的對沖基金。在公司內部，每天需要存儲的數據量大概有25-30TB。因此我們就遭遇到了“內存墻”的問題。

為了應對海量數據對內存帶來的壓力，我們把數據分成了冷數據、溫數據和熱數據。

“冷數據”指的是，數據訪問的頻率不是很高，落庫就好。“熱數據”是指，我們要做大量的讀寫任務，而數據一般都比較散，每次讀寫的量又非常得大。那么如何把熱數據很好的進行分布式存儲？

和純SSD方案相比，現在會有更好的解決方案，比如傲騰持久內存：它介于內存跟SSD之間，可以將熱數據做分布式存儲，就能一定程度地減緩“內存墻”的問題。

5、「AI-原生」的IT基礎設施，是否會出現？

現在有個很火的概念叫「云原生」，它促進了云計算基礎設施的重構。而針對人工智能而生的「AI-原生」，也已經實實在在地發生了。尤其在過去的10年，計算機的硬件創新其實都是在圍繞著人工智能應用而發展的。

舉個例子，當前我們對于云端可信計算的需求越來越多了。比如AI模型的計算過程是一個公司的核心知識產權，如果把它放到云端或者公有平臺上，自然會擔心計算過程有被竊取的風險。

在這種情況下，有沒有基于硬件的解決方案？答案是肯定的，比如我們就在使用英特爾芯片上的SGX隱私沙盒，它能夠以硬件的方式來保障我們的計算，這個其實是跨機構之間合作的一個非常重要的基礎。

這就是一個非常典型的例子，也就是從需求出發，推動芯片或硬件廠商提供相應的解決方案。

6、人工智能硬件，就等于GPU？

這個觀點確實就比較片面了。以倍漾量化每天的工作來舉例，當我們在做量化交易的時候，如果把數據從CPU拷貝到GPU，再拷貝回來，對于很多量化交易的任務就已經來不及了。也就是說，我們需要有一個非常高性能的、CPU版本的人工智能模型的實現。

再比如，我們有很多任務需要在網卡上直接對數據做分析和處理，而網卡上一般帶的是FPGA芯片，它處理的數據如果要傳到GPU上就更來不及了。對于這種低時延、又需要人工智能技術幫助的場景，我們需要一個異構的架構。

也就是說，不管是FPGA、ASIC，還是CPU、GPU，在不同的場景下，它們都有不同的用武之地。

關于異構平臺的編程，我看到工業界已經有了一些嘗試。比如英特爾的oneAPI，我覺得是蠻重要的一個工具。也就是說，oneAPI能讓同樣一套代碼能夠自動地適配CPU、FPGA或者其他類型的芯片。這樣將會大大地減少工程師的編程難度，也能夠讓他們專注在算法創新上。

我覺得，這對于推動異構應用非常重要。

7、未來人工智能發展的方向，還有哪些？

我覺得，可能需要一個更好的端到端的解決方案。現在其實已經從「軟件1.0」升級到了「軟件2.0」時代。也就是說，從傳統規則驅動的復雜軟件工程的構建，變成了數據驅動的軟件工程構建方法。

之前，我們要靠很高的聰明才智寫一系列精妙的系統，才能讓整個程序能夠跑起來。這就類似于機械手表，[敏感詞]的程序員們都把精力放在構建“齒輪”的運轉、以及如何讓這個“手表”能夠跑起來。

現在，如果這一套運行的規則我不知道該怎么定，那就直接把它撂給大量的數據或者機器學習算法，這個算法會生成一個新的算法，而這個新的算法是我們想去得到的東西。這種方式，有點像去造一個造機器人的機器人。

在軟件2.0時代，整個軟件工程的開發范式將有一個很大的轉變，我們很希望得到一套端到端的解決方案，核心就是怎樣更方便地實現「以數據為中心」的軟件工程開發。

8、人工智能，未來如何落地？

我覺得大概有兩方面。[敏感詞]，從工業界來看，還是要從[敏感詞]性原理出發，也就是基于自己的需求，并綜合考慮到很多的非技術因素。比如我看到有一個公司想做小區安防的人臉識別系統，但每個出入口后面要配4個非常昂貴的GPU，這就是典型的沒有從需求和成本出發。

第二，學術研究未必要跟風。就像我們在剛開始時說到的那樣，對于模型的規模，并不需要相互攀比：你有一個千億的，我就要搞個萬億的，你有個萬億的我就要搞一個十萬億的。

其實有大量的任務都需要小規模的參數，或者由于成本等限制，只能提供少量的樣本。在這種條件下，怎樣做創新和突破？這個是學術界應該主動擔起的責任。

9、人工智能創業，還是風口嗎？

我們可以想想看，90年代末期，建個網站都要花2-3萬元，因為當時會網絡編程技術的人鳳毛麟角。但是在今天，可能任何一個高中生，鼠標點一點就能建站。

也就是說，網絡知識已經在每一個普通程序員的工具包里了。

其實，人工智能技術也是一樣。在2015年左右時，搭一套深度學習框架、還要在GPU上能跑起來，全球可能不超過1000個人。而現在經歷了指數級別的增長，很多人都會了。我們有理由相信，大概在五年之后，隨便一個程序員的工具包里就有更為豐富的人工智能解決方案，它的實現的門檻肯定是在不斷降低的。也只有這樣，人工智能技術才能更為普遍地應用在每一個公司。

所以，大廠里的AI Lab是必然會消失的。就像2000年前后，很多公司都有一個Internet Lab，就是把公司所有跟網絡有關的事情專門搞一個實驗室，由這個實驗室向其他的業務部門做技術輸出。這是因為會這項技術的人特別少，他們才要做這件事情。

AI Lab也是一樣的，當AI技術落地的門檻逐漸降低時，大量業務部門的人也擁有類似的技術，那這種AI Lab就必然會消失。我覺得這就是在技術發展過程中一個臨時產品，這是個好事情。當大廠沒有AI Lab的時候，大概就是人工智能真正遍地開花的年代。

10、人工智能，如何普惠大眾？

[敏感詞]，我們還需要摩爾定律的加持。現在還有大量的任務對算力的要求很大，我們必須不斷進行硬件的迭代和算法的更新。只有當需要在集群上跑的事情能在手機上跑，AI才可能有大量的落地。

第二，人工智能創新的重點，要從互聯網的業務轉向一些傳統的行業。之前大家的精力都在怎樣用人工智能做更好的視覺解決方案，或者更好的推薦系統，或者更好的P圖軟件。但在實體經濟中，其實也有大量產生數據的部門和業務。當這些實體經濟數據能夠更好地信息化之后，它們所帶來的價值才可能遠超于目前的虛擬經濟。

免責聲明：本文采摘自網絡，本文僅代表作者個人觀點，不代表薩科微及行業觀點，只為轉載與分享，支持保護知識產權，轉載請注明原出處及作者，如有侵權請聯系我們刪除。

上一條：芯片行業將迎來超級大蕭條？
下一條：半導體風暴來襲！蘋果砍單10%，AMD砍單2萬片晶圓，美光減產！通用MCU也現砍單降價潮！