最新議題
思考之樹,LLM遇上AI:揭開機器學習在量化投資中的優勢
2025-06-05Ellison
11 分鐘
11 主題
收藏
分享

擬人的語言AI,思考之樹
來自 Google DeepMind 在 Princeton 的一份新研究論文旨在徹底顛覆人們對Prompt engineering的想法。
論文標題是"Tree of Thoughts: Deliberate Problem Solving"。它的目標是讓大型語言模型在提供解答之前有能力模擬人類的思考。
大型語言模型的運作方式基本上只是預測文本序列中接下來會出現的內容。依照使用者的提示(文字),然後大型語言模型就開始預測那一系列單詞中接下來的內容。當使用者問題開始涉及到邏輯、推理和數學時,這種從左到右的思考方式就開始崩潰了。
"思考之樹"要做的就是基本上為大型語言模型設定一種方式,讓它們可以多步考慮問題,檢查通往解決方案的不同路徑,選擇最好的一條,然後輸出實際的解決方案。
目前的解法,思考之鏈

毫無疑問的,大型語言型將在越來越多層面被部屬以解決不同文字相關的任務。在"思考之樹"出現之前,已經有多種解決方案。
思考之鏈,就是給它一個輸入,得到一個輸出。也是目前最被廣泛使用的一種提問方式。
然後是加上提示(或是不同情境腳色)的思考之鏈,要求大型語言模型一步一步地解釋其推理過程,直到得出結論或解決方案。
最後,我們有自我一致性思考之鏈(self-consistency train of thought)。透過重複詢問產生許多思考之鏈,最後選擇不同次結果中,最一致的結果,通常也是最常出現的那個。
思考之樹架構是甚麼?

思考之樹會先要求模型提出解決方案,從頂層節點開始,他們可以深入研究該節點的不同排列組合,當它發現一些不起作用的節點(例如紅色節點),它就會回頭繼續尋找其他的節點,然後繼續向下。
最終,通過這種排列,它找到了最好的結果,最好的輸出。這就是思考之樹的工作方式。它不再是線性的"思考之鏈"。它可以沿著決策樹向下走,發現那不是最佳解決方案,嘗試其他排列組合。
這比思考之鏈或自我一致性要複雜得多,並且實際上需要程式語言來實現。所以,它更複雜,但也產生了更好的結果。
本文將利用思考之樹進行三個思考之鏈難以完成的挑戰,挑戰中進行測試:24點遊戲,創意寫作和填字謎。
在24點遊戲中,GPT-4只答對了4%的問題,但思考之樹達到了74%的正確率,是超過10倍的提升。
建立思考之樹的步驟
思考之樹的第一步是思維分解(thought decomposition)。基本上就是將問題分解成中間步驟。非常類似人腦的工作方式。如果你有一個很難解決的問題,人類會其分解成較小的問題再一一擊破。
下一個是思維產生器(thought generator)。所以,提出問題的一個部份後,列出中間步驟,為那個中間步驟提出不同的可能解決方案。
然後是狀態評估器(state evaluator)。樹就在這邊開始形成,我們在頂部有初始節點,然後我們開始將它分解成中間步驟,成為樹狀思維。對於剛剛那些中間步驟,我們需要一種方式來評估那是一個好的路徑,一個壞的路徑,這就是狀態評估器做的事情。
在大問題被分解後,模型會評估這些中間步驟的所有可能解決方案。這非常有趣,我們不僅使用大型語言模型來分解問題,產生問題的解答,也用它來評估一個可能的中間解決方案有多好。
思考之樹的演算法,廣度優先或是深度優先

透過程式碼的編排,我們可以更靈活的應用,舉例來說,每次比較產生5個樣本,或是3個樣本。除此之外,我們可以改變語言模型一定會給答案的缺點,使他們提供的答案為"可能的"還是"不可能的"。
延伸這個概念,思考之樹可以有兩種不同的演算法。一種是使用廣度優先搜索的思考樹(ToT-BFS),另一種是使用深度優先搜索的思考樹(ToT-DFS)。
你可以想像一棵有節點的樹,廣度優先搜索意味著它將在一個水平面上搜尋,找到所有同一層級的節點。另一方面,深度優先搜索意味著它將在樹的一個分支上深入到最深處,然後再回到上一層並再次嘗試。
24點遊戲如何評估錯誤節點

回到剛才的話題,來看看24點遊戲是什麼。24點遊戲是一個數學推理挑戰,目標是使用四個數字和基本的算術運算(加、減、乘、除)來得到24。例如,給定輸入4, 9, 10, 和13,一個可能的解答輸出可能是:(10 - 4)乘以(13 - 9)等於24。
研究人員從FourNumbs.com網站抓取了大約1300個關卡。然後選取了前100個最難的關卡。類可以有一些常識性的評估,例如知道1, 2, 和3太小,無法達到24。這三個數字透過算術運算無法組合到24。透過思考之樹,我們也可以讓語言模型思考哪一個最可能是正確的中間步驟進行投票。
特別注意圖中右上角語言模型評估的可能性,首先他選擇了"4+9=13"。剩下的數字是10, 13, 和13,這是之前加法的輸出。然後評估,"10, 13, 和13是否有可能以任何方式相等於24?答案是"不可能",導致了思考之樹節點在這裡停止。
4%正確率 VS 74%正確率

現在我們轉向綠色的:"10減4等於6。"然後我們剩下的是6, 9, 和13。6, 9, 和13可以達到24嗎?可以的,13減9等於4,然後我們剩下4和6。4乘以6等於24。這就是思考之樹的思考路徑。
本質上就是將那個數學問題一步一步拆解,看看我們剩下的是否有可能達到解答。
右下圖比較了前面描述的幾種指令方式的正確率結果顯示,思考之鏈在100題的答對率為4%,有情境的思考之鏈9%。現在,當我們看到"思考樹"使用廣度為1時,成功率為45%。但是當我們使用廣度為5時,成功率驟增到74%。
當然,這個74%的成功率不是沒有代價的,思考之樹所需要的運算資源遠遠大於思考之鏈。
第二項挑戰 - 創意寫作

接著是創意寫作,研究人員從獲取了一組隨機句子樣本,由思考之樹完成後,由GPT-4和人類來提供評分。
範例是寫一段由四個短段落組成的連貫文章。每段的結尾句必須是:
1. 如果你只是用手去站立,做一個倒立並不困難。
2. 這讓他措手不及。
3. 那個空間裡充滿了烤牛排的香味。
4. 當她一位她不喜歡的男子搭訕時,她開始使用手語。
思考之樹產生了五種結果
結果1:介紹和解釋做倒立的技巧,然後轉換到一個太空人首次進入太空的故事,描述一個女性用手語避免不必要的注意的情況,最後一段解釋每個人對他人的認知都是不同的。
結果2(獲選結果):介紹一本不尋常的自助書,提到倒立作為面對挑戰的隱喻,討論從太空人那裡學到的意想不到的事情,包括太空的氣味,描述一個女性在酒吧避免不必要注意的巧妙策略,並思考不同的自我認知如何塑造一個人的身份。
在本次測驗中,思考之樹獲得的評分也是最高。
最終挑戰 - 填字遊戲

最後,是填字遊戲問題。在此,他們探索了5x5迷你填字謎作為一個涉及高階自然語言的問題。研究人員的目標是探索語言模型作如果能夠模擬人類的思維,是否能夠謹慎的推理,並引導自己解決問題。
研究人員分別以猜出正確的字母、詞和遊戲的比例來衡量這些演算法。同樣的,"思緒之鏈"的提示方法表現糟糕,單詞級成功率低於16%,而"思緒之樹"在所有指標上都有顯著的改善,達到60%的單詞級成功率,並解出20個遊戲中的4個。
這種改善並不令人驚訝,因為思考之鏈沒有探索其他線索、改變決定或回溯的機制。為什麼這很重要?因為在填字謎中,每個答案都依賴於其他所有答案,所以你不能只回答一個而不考慮所有其他單詞的潛在答案。這就是為什麼"思考之樹"比"思考之鏈"的表現出色。
思考之樹還不是最終解答
像ToT這樣的深思熟慮的搜索可能對許多GPT-4已經擅長的現有任務並不必要,本篇論文只探索了三個相對簡單的任務,這些任務挑戰了GPT-4,並要求更好的提問以及計劃能力與語言模型相結合。
然而,當我們開始將語言模型部署於更多真實世界的決策應用(例如,編碼,數據分析)時,仍然需要更多更靈活配置。並且像ToT這樣的搜索方法需要更多的運算資源。
我們預期ToT類型的演算會很快被模組化,並開源來迅速減少這些開發成本。ToT 能夠使語言模型更自主和智慧地做出決策和解決問題的框架。
需要注意樹狀架構與人類互動可能會帶來潛在的問題,例如在創意寫作中寫出不道德的文字與情節。
語言模型與AI決策的交集
語言模型的應用場景正在持續拓展,其中包含了兩個主要的系統:系統1,被視為"關聯性系統",透過尋找並採用可能的解決方案來解答問題。而系統2,則藉由形成有路徑的樹狀結構來解答更複雜的問題,並且,系統2的表現往往建立在系統1的優秀基礎之上。
樹狀框架為我們提供了一種創新的問題解決方式。這種方式利用樹狀結構的形式,能夠讓語言模型探索多種可能的解決方案,並將最有希望的方案作為進行下一步的路徑。此外,這種方式還允許模型在必要時進行回溯和預見,這在傳統的問題解決方式中是無法做到的。
語言模型的這種進步,帶領我們進入了人工智慧決策的新時代。這種結合了語言模型與人工智慧的方法,為我們提供了一個全新的視角來思考和解決問題,並將成為未來研究的重點。我們可以期待,這種新的研究方向將在未來持續深化和發展,並帶領我們進入人工智慧新的里程碑。