2024年11月17日 星期日

不可靠的LLM。我明知 ChatGPT 沒有設計這部分,我不知光靠LLM是怎麼辦到的。真的很神奇。ChungChih Li


ChungChih Li

ChatGPT 還是很不可靠,我又出了20題是非題(計算理論),題目沒有比較難,這次錯了11題,等於亂猜,解釋也亂七八糟,連猜對的都亂扯。(昨天答對 46/50 我很驚奇,但沒看它的解釋,可能也是鬼扯。)鞥鞥鞥

。。。。
ChatGPT 還是很厲害的,我出了50題是非題,不是記憶性的,理論的,也不是很簡單,學生程度好的可以答對45題,平均是30題,比用猜的好一些。一時興起丟給ChatGPT ,答對46題,很神奇。那是給大學部最後一年的考題,另一份給研究生的 ChatGPT 表現稍差,但50題也答對了41題,很厲害,學生很少高於30的,25以下很多,比用猜的還爛,因為有陷阱。幾乎每題都要邏輯推理,而我明知 ChatGPT 沒有設計這部分,我不知光靠LLM是怎麼辦到的。真的很神奇。


+++++Huang Gino 是非題對人腦比較難,容易被情緒影響,但選擇題AI確實比較不行,我覺得是因為焦點被分散,比較不好收斂,但還是頗厲害,水準以上。計算題(或者說應用題),除非很標準的問題,AI常大崩潰。

 前天(9/25)《自然》期刊登出一篇慘烈的AI研究:


隨著大型語言模型(LLM)的訓練參數越來越龐大,#AI卻越來越不可靠。


研究團隊發現,早年的AI模型,遇到不懂的問題比較會迴避,但升級過後的版本,更容易胡謅出一個有模有樣(但錯誤)的答案。


他們分析了三個大型語言模型:OpenAI的 #GPT、Meta(臉書)的 #LLaMA、還有 #BLOOM(BigScience專案開發的全球最大開源語言模型)。發現雖然越大的語言模型回答的精確度確實有上升,但在另外那些不精確的答案中,錯誤的比例卻更上升。


而且這種傾向隨著提出的問題越難、也會越嚴重,尤其像GPT-4,幾乎所有問題都硬要回答、裝得有模有樣。(如圖)


最慘的是,研究團隊讓人類來給予AI模型評價,區辨這些AI的答案是對是錯,結果真人把AI的錯誤答案當成正確答案的比例,大約介於10% - 40%之間。也就是說人類辨識AI答案真假的能力還蠻差的。


⋯⋯看完這篇研究,是否覺得AI跟人類超像:


1. 自以為博學多聞,遇到不懂的問題,卻越來越難以承認「我不知道」 🤷


2. 即使嚴重誇誇其談、裝作無所不知,都還是會有很多人相信他 🤷


(好吧,至少證明AI還是人類文化養出來的小孩無誤)


▌ Zhou, L., Schellaert, W., Martínez-Plumed, F. et al. Larger and more instructable language models become less reliable. Nature (2024).h

沒有留言: