AI焦點｜一件接一件：Axon 與 Schneider Electri・SpaceX Aims To Be the Largest・Do Transformers Need Three Pro

📰 1. 一件接一件：Axon 與 Schneider Electric 供應鏈主管暢談永久混亂日常

先說重點：供應鏈不再「回到正常」，而是學會「與混亂共舞」

你知道嗎？當我們還在抱怨物流延遲、晶片短缺時，全球頂尖企業的供應鏈主管早已放棄「等風暴過去」的幻想。這篇訪談中，Axon（對，就是做電擊槍那家）和Schneider Electric（能源管理巨頭）的供應鏈老大們，直接在標題開嗆：「一件接一件，沒完沒了。」他們坦承，COVID只是起點，之後的地緣政治、氣候災難、港口罷工……根本是連環車禍。原文的核心論點很簡單：「永久性中斷」不是暫時現象，而是新常態。

我的觀點：別再靠「存貨」解決一切，那是鴕鳥心態

老實說，我看到那句「one thing after the next」直接笑出來——這不就是我們每天在產線上的寫照嗎？但我認為，這兩家公司的做法給了我們一個重要啟示：與其被動救火，不如主動設計「不完美的系統」。Axon的供應鏈長提到，他們不再追求零庫存（JIT），而是用「雙重備援」甚至「三重保險」——同一零件從不同國家供應、不同運輸路線、甚至不同規格替代方案。Schneider更極端，他們把供應鏈韌性直接當作產品賣點，客戶買他們的配電設備，附帶一套「中斷應對演練劇本」。這不是花拳繡腿，而是他們在真實世界被颶風、駭客攻擊、甚至原料短缺輪番轟炸後，總結出的生存法則。

我的觀點很直接：台灣科技業最愛說「彈性」，但很多廠商的彈性只是「能加班趕貨」。真正的彈性應該是 「當你第三大供應商突然倒閉，系統能在24小時內自動切換到備用方案，而且客戶完全無感」 。這需要數據透明度、跨部門即時協作，以及——最重要的是——高層願意接受「完美的供應鏈成本」其實比「中斷損失」低得多。

延伸思考：從供應鏈看台灣的「代工宿命」

這件事對台灣電子業特別有感觸。我們很多公司還是習慣「客戶給我BOM，我照單買料、組裝出貨」，供應鏈管理只停留在採購和催料。但看看Axon和Schneider，他們連自家工廠的碳足跡、供應商的員工福利都納入風險評估——因為任何一個環節出包，都會被放大成公關災難。我認為台灣產業必須從 「高效供應鏈」轉型成「韌性供應鏈」 ，不是只追求每顆螺絲便宜1毛錢，而是佈局多國備案、投資數據中台、甚至跟競爭對手建立聯合庫存。聽起來違反直覺？但當你被「一件接一件」打到懷疑人生的時候，就會發現：唯一比庫存更貴的東西，是沒有庫存的時候。

📝 編輯說：:這篇文章在科技業供應鏈圈引發討論，筆者認為最值得反思的觀點是：台灣代工廠常把「成本控制」當聖經，卻忽略了「彈性」才是長期生存的護身符。

📰 2. SpaceX Aims To Be the Largest IPO Ever — But It Just Posted a $4.28 Billion Quarterly Loss

🔗 原文連結

TITLE:SpaceX 目標成為史上最大 IPO——但剛公佈季度虧損 42.8 億美元

嗨，各位科技迷！今天來聊一個有點矛盾的新聞：太空狂人 Elon Musk 的 SpaceX 一邊喊著要搞史上最大的 IPO（首次公開募股），一邊卻默默丟出一個季度虧損 42.8 億美元的財報。嗯…這到底是「我全都要」的霸氣，還是「先把餅畫大再找人接盤」的老套路？

原文摘要：巨虧 vs. 巨夢

這篇報導來自 Yahoo Finance，重點其實很簡單：SpaceX 的內部財務數據不小心流出（或者說他們故意放風？），顯示 2024 年 Q1 營收雖然有成長，但淨虧損高達 42.8 億美元。而同一時間，執行長 Musk 和投資人關係團隊卻在對外放話，說他們正在準備 IPO，目標是超越沙烏地阿拉伯國家石油公司（Saudi Aramco）當年創下的 294 億美元募資紀錄，成為史上最大 IPO。

簡單來說：公司燒錢燒到跟瀑布一樣，但卻告訴大家「我要上市圈最大的錢」。這操作是不是很熟悉？沒錯，很像當年 Uber、WeWork 玩過的劇本，只是 SpaceX 玩得更狂、更太空。

我的觀點：虧損不可怕，可怕的是你不講虧在哪

說真的，42.8 億美元虧損乍看很嚇人，但我們要先搞清楚 SpaceX 的商業模式。他們目前主要收入來源是 Starlink 衛星網路、NASA 與軍方的發射合約，以及少部分的太空旅遊業務。Starlink 還在燒錢鋪衛星，發射成本也超高，加上近期他們為了 Starship 火箭的開發投入天價研發費，虧損其實不意外。

我的工程師朋友常說：「只要有現金流，虧損只是會計問題。」SpaceX 估值約 1,800 億美元，背後有沙烏地、淡馬錫等大咖撐腰，短期內倒不了。但問題在於：他們敢在虧損高峰時 IPO，代表他們急需公開市場的資金來填補 Starship 和 Starlink 的錢坑，同時也讓早期投資人解套。這對散戶來說可是高風險博弈——你可能買到一個未來太空霸主，也可能接到一個還在燒錢的無底洞。

延伸思考：太空產業的「泡沫」還是「信仰」？

其實 SpaceX 不是第一個虧損還想上天的公司。看看特斯拉當年也虧了好多年才翻身。但太空產業跟電動車不同，它的技術門檻更高、市場規模更不確定。Starlink 雖然用戶數成長，但地球上的光纖和 5G 競爭也很激烈；火箭發射市場更是被 SpaceX 自己打低價格，利潤空間有限。

另一個值得深思的是：如果 SpaceX 真的成為史上最大 IPO，那代表全球資金將大量湧入私人航太領域。這可能會推高整個供應鏈的估值，但也可能讓一些其實沒那麼成熟的太空新創跟著膨脹。對投資人來說，這就像在賭一個「太陽系大航海時代」的到來——很有願景，但風險也是星際級的。

📝 編輯說：: 這篇文章在 Reddit 的 r/SpaceX 板引發兩派論戰，一派認為虧損是短期投入換長期壟斷，另一派則擔心 Musk 又在玩「先喊再兌現」的老把戲。筆者認為最有價值的觀點在於：太空產業的獲利模式尚需時間驗證，散戶別只看 IPO 光環就衝進場。

📰 3. Do Transformers Need Three Projections? Systematic Study of QKV Variants

🔗 原文連結

TITLE:Transformer真的需要三個投影嗎？QKV變體的系統性研究

欸，最近看到一份超有趣的論文，標題就直接問「Transformer真的需要三個投影嗎？」——這可不是在開玩笑，而是ICML 2026收錄的系統性研究。作者把QKV的投影權重玩出各種花樣：共享key-value、共享query-key、甚至三個全綁在一起，結果讓人有點意外——在某些任務上，共享投影的效果竟然不輸原本的獨立投影，甚至更好。尤其是共享key-value (Q-K=V) 那組，語言模型訓練到10B tokens，KV快取直接砍半，困惑度才掉3.1%。這對想把大模型塞進手機或邊緣設備的人來說，根本是天上掉下來的禮物。整份論文有26頁、12張圖、16張表，程式碼也開源了，喜歡動手玩的朋友可以去找找。

原文摘要

這篇論文系統性地評估了Transformer注意力機制中QKV投影的三種共享限制：(a) Q-K=V（共享key和value）; (b) Q=K-V（共享query和key）; (c) Q=K=V（單一投影）。後兩種會產生對稱的注意力圖，作者用2D位置編碼來補救。實驗橫跨合成任務、視覺（MNIST、CIFAR、TinyImageNet、異常檢測）以及語言模型（300M和1.2B參數，用10B tokens訓練）。結果發現共享投影的Transformer表現和傳統QKV Transformer旗鼓相當，甚至偶爾略勝一籌。特別是Q-K=V共享，在語言建模上實現50%的KV快取減少，困惑度只上升3.1%。而且，共享投影還能和頭共享（GQA/MQA）疊加：Q-K=V加上GQA-4時，快取減少87.5%；加上MQA則高達96.9%，讓邊緣設備上的推論變得非常可行。作者解釋，Q-K=V之所以能維持品質，是因為keys和values可以佔據相似的表示空間，且注意力運作在低秩區域；反觀Q=K-V會破壞注意力的方向性。這項研究系統性地揭示了投影共享是注意力機制中一個被低估的權重綁定實例，對邊緣部署的記憶體節省有直接可量化的好處。

我的觀點

老實說，看到這篇論文的第一個反應是：「哇，原來我們一直做了這麼多『多餘』的矩陣乘法？」傳統Transformer教課書都說QKV是三個獨立投影，各自學不同語義，結果現在有人告訴你：key和value其實可以共用同一組權重，而且還不會太差。這對工程師來說真的是又驚又喜。特別是語言模型那組實驗，Q-K=V加上GQA就能把KV快取砍掉87.5%——這意味著同樣的記憶體預算，你可以塞進更大的模型，或者跑更長的上下文。當然，注意它對困惑度還是有點影響（3.1%），但對於某些對精確度要求沒那麼高的應用（比如聊天、摘要），這個取捨完全值得一試。另外，論文提到Q=K=V（三個全綁）效果不好，這其實也合理：query和key的角色本來就不同，硬綁在一起會讓注意力變成對稱的，方向性就丟了。作者的2D位置編碼補救法雖然有幫助，但整體來看還是Q-K=V最實用。

延伸思考

這篇論文開啟了更多有趣的問題：既然key和value可以共享，那其他注意力組件（比如值投影後的輸出投影、FFN的升維降維）是不是也能做類似簡化？另外，這種共享策略在超大模型（例如數百B參數）上會不會因為容量不足而失效？還有，他們只在語言模型上試了10B tokens，未來若在更多領域（如多模態、強化學習）測試，結果可能會更豐富。從更廣的角度看，這其實是「權重綁定」這個古老技巧在Transformer上的一次漂亮應用——就像RNN時代的參數共享一樣，有時候少做一些計算，反而讓模型學到更泛化的表示。如果未來硬體設計能針對這種共享架構做優化，邊緣AI的普及速度說不定會比我們想像的快很多。

📝 編輯說：:這篇文章在arXiv引發討論，筆者認為最有趣的觀點是Q-K=V共享加上GQA能把快取砍到87.5%，直接挑戰了「獨立投影是注意力核心」的傳統認知。

📚 本日原文來源

本文由JK Space News自動彙整，不代表任何投資建議。