Herbert A. Simon 司馬賀: 不可靠的LLM。我明知 ChatGPT 沒有設計這部分，我不知光靠LLM是怎麼辦到的。真的很神奇。ChungChih Li

2024年11月17日星期日

不可靠的LLM。我明知 ChatGPT 沒有設計這部分，我不知光靠LLM是怎麼辦到的。真的很神奇。ChungChih Li

ChungChih Li

ChatGPT 還是很不可靠，我又出了20題是非題(計算理論)，題目沒有比較難，這次錯了11題，等於亂猜，解釋也亂七八糟，連猜對的都亂扯。(昨天答對 46/50 我很驚奇，但沒看它的解釋，可能也是鬼扯。)鞥鞥鞥

。。。。

ChatGPT 還是很厲害的，我出了50題是非題，不是記憶性的，理論的，也不是很簡單，學生程度好的可以答對45題，平均是30題，比用猜的好一些。一時興起丟給ChatGPT ，答對46題，很神奇。那是給大學部最後一年的考題，另一份給研究生的 ChatGPT 表現稍差，但50題也答對了41題，很厲害，學生很少高於30的，25以下很多，比用猜的還爛，因為有陷阱。幾乎每題都要邏輯推理，而我明知 ChatGPT 沒有設計這部分，我不知光靠LLM是怎麼辦到的。真的很神奇。

+++++Huang Gino 是非題對人腦比較難，容易被情緒影響，但選擇題AI確實比較不行，我覺得是因為焦點被分散，比較不好收斂，但還是頗厲害，水準以上。計算題(或者說應用題)，除非很標準的問題，AI常大崩潰。

前天（9/25）《自然》期刊登出一篇慘烈的AI研究：

隨著大型語言模型（LLM）的訓練參數越來越龐大，#AI卻越來越不可靠。

研究團隊發現，早年的AI模型，遇到不懂的問題比較會迴避，但升級過後的版本，更容易胡謅出一個有模有樣（但錯誤）的答案。

他們分析了三個大型語言模型：OpenAI的 #GPT、Meta（臉書）的 #LLaMA、還有 #BLOOM（BigScience專案開發的全球最大開源語言模型）。發現雖然越大的語言模型回答的精確度確實有上升，但在另外那些不精確的答案中，錯誤的比例卻更上升。

而且這種傾向隨著提出的問題越難、也會越嚴重，尤其像GPT-4，幾乎所有問題都硬要回答、裝得有模有樣。（如圖）

最慘的是，研究團隊讓人類來給予AI模型評價，區辨這些AI的答案是對是錯，結果真人把AI的錯誤答案當成正確答案的比例，大約介於10% - 40%之間。也就是說人類辨識AI答案真假的能力還蠻差的。

▌

⋯⋯看完這篇研究，是否覺得AI跟人類超像：

1. 自以為博學多聞，遇到不懂的問題，卻越來越難以承認「我不知道」 🤷

2. 即使嚴重誇誇其談、裝作無所不知，都還是會有很多人相信他 🤷

（好吧，至少證明AI還是人類文化養出來的小孩無誤）

▌ Zhou, L., Schellaert, W., Martínez-Plumed, F. et al. Larger and more instructable language models become less reliable. Nature (2024).h

沒有留言:

張貼留言

2024年11月17日 星期日

不可靠的LLM。我明知 ChatGPT 沒有設計這部分，我不知光靠LLM是怎麼辦到的。真的很神奇。ChungChih Li

ChungChih Li

沒有留言:

2024年11月17日星期日