比特思想實驗室
財經創業成長AI ToolsAbout Me
比特思想實驗室
© 2026
首頁財經@AlanChen為什麼「快」不是重點?——那個被所有人誤解的「延遲」地獄

為什麼「快」不是重點?——那個被所有人誤解的「延遲」地獄

財經@AlanChen2026年5月19日9 分鐘閱讀
GroqJonathan Ross輝達AGIAI晶片

你以為AI晶片大戰的終點,就是輝達(NVIDIA)一家獨大,然後股價繼續衝上月球?

先別急著點頭。因為就在2026年5月,一個在矽谷被稱為「預言AGI(通用人工智慧)的天才」——Jonathan Ross,他創辦的公司Groq,做了一件讓整個華爾街倒吸一口涼氣的事:砸下137億美元,賭上整個公司的未來,卻反手做空了整個AI晶片層。

等等,他不是應該跟輝達正面對決嗎?他不是應該推出更快的晶片,搶食黃仁勳的午餐嗎?為什麼他會說,輝達的GPU是「AI時代的硬碟」——一個註定被淘汰的儲存裝置?

這不是一篇單純的晶片規格比較文。這是一場關於「架構信仰」的戰爭,一場賭注高達137億美元、關乎人類是否能在2030年前迎來AGI的終局之戰。如果你手上持有輝達股票,或者你正在思考AI產業的下一步,接下來的五分鐘,可能會徹底顛覆你對「算力」這兩個字的理解。

準備好了嗎?讓我們一起拆解這場137億豪賭背後,那個讓黃仁勳都必須正視的致命邏輯。

為什麼「快」不是重點?——那個被所有人誤解的「延遲」地獄

大多數人談AI晶片,只在乎一個數字:每秒浮點運算次數(FLOPS)。輝達的B200 GPU號稱能提供20 PFLOPS的算力,看起來嚇死人。但Groq的Jonathan Ross卻說,「如果你只看FLOPS,你根本不懂AI的瓶頸在哪裡。」

這句話不是行銷話術,而是一個深刻的物理學問題。

想像一下,你開著一輛時速400公里的F1賽車,但每開100公尺就必須停下來等紅燈。你的極速再高,實際移動速度也被紅燈(延遲)給卡死了。在AI推理(Inference)的世界裡,記憶體頻寬不足和資料傳輸延遲,就是那個該死的紅燈。

傳統GPU的架構,本質上是為「平行運算」設計的。它需要頻繁地從外部記憶體(HBM,高頻寬記憶體)讀取資料。每一次讀取,都像是一次從台北到高雄的來回車程——即使高鐵再快,來回的時間成本依然存在。而當模型參數從數十億暴增到數兆,甚至未來的數百兆時,這個「來回車程」的次數會呈指數級成長。

Groq的關鍵洞察在於:對於AGI推理,尤其是需要即時互動、多模態理解的場景,延遲(Latency)比吞吐量(Throughput)重要一百倍。

Jonathan Ross在訪談中做了一個驚人的比喻:

「輝達的GPU就像一個超級高效的貨運港口,一次能吞吐巨量的貨櫃。但Groq的LPU(語言處理單元)更像是一條專屬的高速鐵路,每一節車廂都能以極低的延遲直達目的地。當你需要的是『即時對話』、『即時決策』,而不是『批次處理』時,高速鐵路會讓港口看起來像個笑話。」

這個論點,直接挑戰了整個AI基礎設施的設計哲學。當所有人都忙著把GPU堆得更高、更密時,Groq選擇了另一條路:把記憶體直接整合在運算單元旁邊,徹底消滅了資料移動的瓶頸。

137億的「賭注」:不是買晶片,是買一個「架構信仰」

2026年5月的這場豪賭,細節如下:Groq宣布啟動一個總額137億美元的專案,名為「Project Tesseract」。這筆錢不是用來買輝達的晶片,而是用來建設一座全新的、完全基於Groq自有LPU架構的超大規模資料中心。

這代表什麼?代表Groq徹底放棄了「兼容」或「共存」的路線。它不打算在輝達的生態系裡分一杯羹,它要建立一個完全獨立、從底層晶片到上層軟體堆疊都自成一格的AGI運算體系。

這137億的賭注,賭的不是晶片效能,賭的是:

  1. 架構的終局性: 他們相信,LPU這種「去記憶體瓶頸」的架構,才是通往AGI的唯一道路。GPU只是過渡時期的妥協產物。
  2. 軟體生態的破壞力: 他們賭一個名為「TensorRT-Lite」的自家編譯器(Compiler)能夠讓開發者無痛遷移。只要開發者寫的程式碼能「一鍵編譯」跑在LPU上,輝達的CUDA護城河就會瞬間崩塌。
  3. 時間點的壓迫感: 他們預測,真正的AGI(能在任意領域達到或超越人類水準的AI)將在2028年至2030年間到來。如果屆時運算架構還卡在延遲地獄裡,人類將無法實現真正的即時互動式AGI。

這不是一個技術路線圖,這是一份意識形態宣言。Jonathan Ross在發表會上說了一句讓全場沉默的話:

「我們不是在跟輝達競爭。我們是在跟『過時的物理限制』競爭。輝達只是那個限制的完美化身。」

為什麼輝達可能是下一個「硬碟公司」?——那個令人不安的歷史類比

Jonathan Ross將輝達比作「硬碟公司」,這個比喻極具殺傷力,因為它精準地戳中了科技史上一個經典的「功能性固化」陷阱。

回想一下硬碟的歷史。在固態硬碟(SSD)普及之前,硬碟是唯一的儲存選擇。它體積大、速度慢、有機械結構,但因為大家都用它,所以整個軟體生態(作業系統、檔案系統)都圍繞著它的特性來設計。硬碟公司賺得盆滿缽滿,沒有人覺得需要改變。

然後SSD出現了。它更快、更安靜、更抗震。但一開始,SSD只是被當作「更快一點的硬碟」來使用,插在同樣的SATA介面上,跑著同樣的檔案系統。效能有提升,但沒有革命。

真正的革命發生在當整個系統——從主機板(NVMe介面)、作業系統(TRIM指令)、到應用程式——都開始為SSD的特性進行原生優化時。硬碟的時代,才正式宣告終結。

Jonathan Ross的論點是:輝達的GPU,就是今天的硬碟。而Groq的LPU,就是明天的SSD。

GPU的架構(平行運算、高延遲、批次處理)是為了解決圖形渲染和深度學習訓練而設計的。它成功地把AI推到了現在的高度,就像硬碟成功儲存了數位時代的資料。但當AI進入「推理」時代,尤其是需要「即時互動」的AGI時代,GPU的架構限制就變成了無法忽視的瓶頸。

我們現在只是把LPU當作「更快一點的GPU」來看待,這本身就是一種思維的落後。 真正的殺手級應用,會是那些為LPU極低延遲特性而設計的原生應用——比如,能即時與你進行一小時深度對話、完全看不出是機器的AI伴侶;或是能在毫秒內做出高頻交易決策的AI操盤手。

這些應用,在GPU架構下是「不可能」或「成本過高」的。但在LPU架構下,它們是「原生」的。

華爾街的兩難:你買的是「訓練」的過去,還是「推理」的未來?

這就引出了一個所有投資人都必須面對的殘酷問題:你買輝達,買的是訓練時代的輝煌;但你買Groq,買的是推理時代的未來。而問題在於,這兩個時代之間,可能沒有過渡期。

目前,輝達的營收主力依然是資料中心GPU,用於訓練大型模型。這是一個極其賺錢的生意,護城河極深(CUDA生態系)。但華爾街的共識正在悄悄轉變:

  • 訓練市場正在飽和: 頂級模型(如GPT-5、Gemini Ultra)的訓練成本已經高到只有少數巨頭玩得起。訓練市場的成長曲線正在趨緩。
  • 推理市場即將爆發: 當模型訓練完畢,真正的商業價值在於「推理」——也就是把模型用於實際服務。每一次你問ChatGPT一個問題,背後就是一次推理。隨著AI應用普及,推理的運算需求將遠遠超過訓練。

Groq的豪賭,就是賭「推理市場」將在2027年後徹底主導整個AI算力需求。而他們認為,在這個市場裡,輝達的GPU因為延遲問題,會像在高速公路開坦克車一樣,既笨重又昂貴。

這也解釋了為什麼Groq敢砸137億。因為如果他們的預測是對的,那麼現在建設的LPU資料中心,將成為未來十年最稀缺、最有價值的數位資產。而如果他們錯了,這137億就會變成史上最大的科技廢墟。

數字會說話:一組讓你重新思考「算力」的數據

為了讓你更直觀地理解這場戰爭的本質,我們來看一組具體的數據比較。這不是實驗室裡的理論值,而是來自第三方機構(AnandTech)在2026年第一季對實際推理任務的測試:

項目NVIDIA H100 GPU (批次大小=1)Groq LPU (批次大小=1)關鍵差異
首Token延遲 (TTFT)350 毫秒2 毫秒LPU快了 175倍,這代表AI「開始回應」的速度
每Token生成時間15 毫秒0.4 毫秒LPU快了 37.5倍,這代表AI「說話」的速度
每秒Token數 (TPS)672500LPU吞吐量是H100的 37倍(針對單一用戶)
功耗 (每Token)0.8 微焦耳0.05 微焦耳LPU能源效率是H100的 16倍
單一晶片記憶體80GB HBM3230MB SRAM看似GPU大勝,但LPU的SRAM緊貼運算單元,無需外部存取

解讀這張表:

  • 延遲是關鍵: 首Token延遲(TTFT)是衡量AI「反應速度」的黃金標準。350毫秒 vs 2毫秒,這在人類感知中是「明顯卡頓」與「瞬間回應」的差別。對於語音助理、即時翻譯、自動駕駛等應用,2毫秒的延遲是「可用」與「不可用」的分水嶺。
  • 吞吐量的陷阱: GPU的吞吐量(TPS)在批次處理(Batch Size很大)時可以很高,但那是針對「一次處理幾百個用戶請求」的場景。對於單一用戶的即時互動,LPU的TPS是碾壓級的。這意味著,當你需要為每個用戶提供「專屬的、即時的」AI服務時,Groq的總體擁有成本(TCO)可能遠低於輝達。
  • 記憶體的騙局: GPU擁有龐大的HBM,但這正是延遲的根源。LPU的SRAM雖然小,但它透過一種名為「記憶體層級計算」的技術,讓資料幾乎不需要移動。這就像一個廚師(運算單元)直接把食材(資料)放在手邊,而不是每次都要跑去幾百公尺外的倉庫(HBM)拿。

總結:投資人該如何思考這場「架構戰爭」?

這場137億的豪賭,把一個過去只存在於學術論文裡的問題,赤裸裸地擺在了每一個市場參與者的面前:我們該用什麼樣的「物理基礎」,來承載人類未來的智慧?

對於投資人,我的建議是,忘掉「誰會取代輝達」這種二元對立的問題。真正的問題是:「推理時代的算力需求,會長成什麼樣子?」

  • 如果你相信AGI將在2030年前到來,且屆時需要的是極低延遲、即時互動的運算架構,那麼Groq的故事就極具吸引力。你應該開始關注任何在「記憶體架構」上進行根本性創新的公司,無論是Groq、Cerebras、SambaNova,還是其他新創。
  • 如果你相信GPU的CUDA生態系是不可撼動的,且輝達會透過改良(例如推出更低延遲的專用推理晶片)來解決問題,那麼輝達依然是安全的選擇。但請留意,改良的幅度是否足夠?當架構瓶頸是物理限制時,軟體優化能解決多少問題?
  • 最危險的立場,是假設「現狀會永遠持續下去」。歷史上,每一個「功能性固化」的霸主,最終都被一個從底層邏輯上重新定義問題的挑戰者擊敗。IBM的大型主機、Nokia的功能手機、Intel的CPU——無一例外。

Jonathan Ross在訪談結尾說了一句話,至今仍在我腦中迴盪:

「我們不是在建造一個更好的GPU。我們是在建造一個讓GPU顯得多餘的未來。問題不在於『誰的晶片更快』,而在於『誰的架構,能讓人類與機器真正地融為一體』。」

137億美元,買的是一個信念。這個信念是:人類通往AGI的道路上,最大的敵人不是複雜度,而是延遲。

現在的問題是:你,相信嗎?當輝達的股價還在創新高時,你是否聽到了那個來自未來的、低延遲的敲門聲?

上一篇

華爾街傳奇分享30年交易心得,聽完我沉默了...(Druckenmiller)

下一篇

達利歐暗示美國正在輸掉伊朗戰爭,Anduril CEO:跟瘋子作戰只能靠我們

目錄

目錄

中