2025年3月26日 星期三

Humanity’s Last Exam

 The questions on Humanity’s Last Exam went through a two-step filtering process. First, submitted questions were given to leading A.I. models to solve.

If the models couldn’t answer them (or if, in the case of multiple-choice questions, the models did worse than by random guessing), the questions were given to a set of human reviewers, who refined them and verified the correct answers. Experts who wrote top-rated questions were paid between $500 and $5,000 per question, as well as receiving credit for contributing to the exam.


Mr. Hendrycks, who helped create a widely used A.I. test known as Massive Multitask Language Understanding, or M.M.L.U., said he was inspired to create harder A.I. tests by a conversation with Elon Musk. (Mr. Hendrycks is also a safety advisor to Mr. Musk’s A.I. company, xAI.) Mr. Musk, he said, raised concerns about the existing tests given to A.I. models, which he thought were too easy.

Once the list of questions had been compiled, the researchers gave Humanity’s Last Exam to six leading A.I. models, including Google’s Gemini 1.5 Pro and Anthropic’s Claude 3.5 Sonnet. All of them failed miserably. OpenAI’s o1 system scored the highest of the bunch, with a score of 8.3 percent.



Mr. Zhou, the theoretical particle physics researcher who submitted questions to Humanity’s Last Exam, told me that while A.I. models were often impressive at answering complex questions, he didn’t consider them a threat to him and his colleagues, because their jobs involve much more than spitting out correct answers.

“There’s a big gulf between what it means to take an exam and what it means to be a practicing physicist and researcher,” he said. “Even an A.I. that can answer these questions might not be ready to help in research, which is inherently less structured.”


spit it out
phrase of spit
  1. informal
    used to urge someone to say or confess something quickly.
    "spit it out, man, I haven't got all day"

2025年3月20日 星期四

Daniel Kahneman 等

  Thinking, Fast and Slow. by Daniel Kahneman


康納曼是全世界最具影響力的思想家之一,他是普林斯頓大學(Princeton University)的心理學家、諾貝爾經濟學獎得主。
一本於2011年首次出版的《快思慢想》(《Thinking, Fast and Slow》),更是讓康納曼在國際上引起了強烈反響。他在漫長的職業生涯中,一直潛心研究人類決策的不完美和不一致。根據大多數人的說法,他選擇結束生命時,身體和精神健康狀況仍然相當不錯。
2024年3月中旬,丹尼爾·康納曼與他的伴侶,從紐約飛到巴黎,與女兒一家團聚。他們用了幾天時間在城市裡散步,參觀博物館,欣賞芭蕾舞表演,品嘗舒芙蕾和巧克力慕斯。
3月22日前後,在那個月邁過90歲門檻的康納曼開始向跟他最親近的幾十個人發送個人郵件。郵件上是這麼寫的:這是我寫給好友們的告別信,我要告訴大家,我在去瑞士的途中,3月27日,我的生命將在瑞士結束。
而3月26日,康納曼離開了家人,飛往瑞士。
想當然,康納曼的死訊一經宣布就引起了廣泛哀悼。不過,只有親朋好友知道他是在瑞士一家自殺協助設施中去世的。時至今日,一些人仍然難以理解他的決定...
👇更深入的完整內容👇
可能是 2 個人和顯示的文字是「國際熱議 對死亡應有多少控制權? 90嵗主動結束生命 《快思慢想》 思慢想》作者一康納曼的最後按擇 作者一康納量的最後按擇 風傳媒×WSJ WSJ 風傳媒 HESTOMMEDIA STORL 草留第日報 中配货日量 SOURCE:圖/華爾街日報 SOURCE 圖/華爾街日報」的圖像



 
数学家亚当•库恰尔斯基谈决策者对逻辑的信任以及为什么算法不一定是答案。
 
卢斯:从查克•舒默到加文•纽森,恐惧和思维混乱正在阻止特朗普的反对者采取行动,捍卫处于危险中的民主制度。

2025年3月19日 星期三

Defiance and Threats in Deportation Case Renew Fear of Constitutional Crisis

 

Defiance and Threats in Deportation Case Renew Fear of Constitutional Crisis

Legal scholars say the U.S. has reached a tipping point and that the question is not whether there is a crisis, but rather how much damage it will cause.

這幾年的"AI 瘋"很玄妙

 這幾年的"AI 瘋"很玄妙

甲骨文等大老闆,捧著錢給黃仁勳,

TSMC說 產能不夠不夠....
從孤兒到白宮貴賓。ic到 data centers. 決定性2025 到 世界質變?

人工智慧如何正在改變世界製造電腦的方式:“This will be a defining year for AI,” “Let’s go build!” “原本未來十年可能發生的事情被壓縮到了僅僅兩年的時間內。” "人工智慧.是促進劑"。How A.I. Is Changing the Way the World Builds Computers
《紐約時報》參觀了加州、猶他州、德州和俄克拉荷馬州的五個新資料中心園區,並與 50 多名高階主管、工程師、企業家和電工進行了交談,講述了科技業對這種新型計算方式的無限渴求。
谷歌首席執行官桑達爾·皮查伊 (Sundar Pichai) 在接受《紐約時報》採訪時表示:“原本未來十年可能發生的事情被壓縮到了僅僅兩年的時間內。” "人工智慧.是促進劑」。
The New York Times visited five new data center campuses in California, Utah, Texas and Oklahoma and spoke with more than 50 executives, engineers, entrepreneurs and electricians to tell the story of the tech industry’s insatiable hunger for this new kind of computing.
“What was probably going to happen over the next decade has been compressed into a period of just two years,” Sundar Pichai, Google’s chief executive, said in an interview with The Times. “A.I. is the accelerant.”

0:04 / 6:50
)







黃仁勳稱AI算力需求將激增100倍

黃仁勳宣布英偉達推出新的Rubin人工智能晶片,以及與多家企業的合作夥伴關係,以增強投資者對AI繁榮的信心。







讀報看國際台:明星celebrityC.E.O.黃仁勳(綽號為「人工智慧耶穌」) 。明星celebrityC.E.O.黃仁勳(綽號為「人工智慧耶穌」)發表有關人工智慧未來的演講(預計超過 25,000 人參加:“Nvidia 生產的晶片是人工智慧的氧氣,因此人們都在密切關注他們的最新和最棒的產品。年度開發者大會從學術活動轉變為人工智慧未來的名人聚會。” )


各科技大頭拼命蓋DATA CENTERS (詳鄙人昨日直播) 雖然頭洗下去的MICROSOFT 老闆坦承: AI 沒創價值
比算力啦

中國舉國瘋(假設TRAING 成本直落),要以 DEEPSEEK 立國 (老闆說,投資慢點說.....有人說虧本了....欠揍?


半導體業代工的難題與機遇.....《晶片戰爭Chip War》或尚未提到的中東戰場(陳立武 2024,10月 在沙烏地阿拉伯的Keynote演講).......
Trump to Host Top UAE Official for Chips, Investment Talks
ASML與Intel和TSMC。 陳立武 (Lip-Bu Tan):沒有樂觀的理由....."拭目以待他如何帶領Intel Foundry Service打造Customer Trust (tsmc 之魂)"。
陳立武 (Lip-Bu Tan 福建話發音) Intel新 CEO。任職"Intel新 CEO",是很難的或不可能的任務,沒有特別樂觀的理由。



拜託 TRUMP 手下留情,重拳下去,地球級泡沫?


 
在美国收紧芯片和技术限制、美国专有模型变得地位牢固之际,中国最有效的战略就是速度和规模——用层出不穷的AI模型淹没市场,改变局势。


2025年3月11日 星期二

Maus



Maus is an all-in-one platform for strategic, financial, and exit planning that turns big ideas into action. Get Started. Learn More.
Maus Designs is a full-service Website Design & Marketing Agency dedicated to creating an unforgettable presence for your brand.


 紧接DeepSeek的步伐, 近日,又一款来自中国的生成式人工智能产品在国际人工智能界引起关注。

来自初创公司蝴蝶效应的这款叫做Manus的人工智能代理(AI Agent)通过综合并调节多个现有的大语言模型,实现帮助用户完成多种复杂任务的功能,包括审核工作申请表、研究房地产行情、分析股市、监视社交媒体舆情、声音制作、分析比较保险政策等等。
“这并非只是一个聊天机器人或工作流,而是一个真正的自主式代理,连接起概念与执行之间的空隙,” 蝴蝶效应联合创始人、首席科学家季逸超在一段产品介绍的短片中用英文说道,“其他人工智能还停留在生成想法的时候,Manus已经带来成果。”
根据Manus公布的数据,该产品的性能表现打败了人工智能界领先的公司OpenAI的类似产品Deep Research。
这款产品尚未对公众开放,但一些人工智能行业内的人士已经获得了测试邀请码。科技公司Hugging Face产品设计主任维克多·马斯特(Vicor Muster)在X上称“Manus是我用过的最令人惊叹的人工智能工具”。
推特创始人杰克·多西(Jack Dorsey)也评价说“棒极了”。
但人工智能初创公司 Pleias 的联合创始人亚历山大·多里亚 (Alexander Doria) 在 X 上的一篇帖子中表示,他在测试 Manus 时遇到了错误消息和无限循环。其他 X 用户指出,Manus 在事实问题上犯了错误,并且没有始终如一地引用其工作成果--而且经常错过在网上很容易找到的信息
值得注意的是,Manus并不是一个主打中国国内市场的产品。这引起了一些中国社媒用户的质疑。一条微博评论写道:“为什么只有国外可以用国内用不了,为什么是用英文?不用中文,你是国内的团队,为什么不优先国内用户使用?”
不过,Manus星期二( 3月11日) 则宣布和阿里云的大语言模型通义千问达成协议,计划在“国产模型和算力平台上实现 Manus 的全部功能”,以“满足中文用户的需求”。
对于Manus引起的这波反响,《环球时报》特约评论员、前主编胡锡进在他的社媒上写道:“中国无疑已是AI进步的世界两大中心之一,而且我们形成了自己独特的竞争力,这个大判断越来越确定了。”
从DeepSeek到Manus,中国真的是AI进步的中心之一了吗? 中国真的形成了独特的竞争力了吗?欢迎在评论区发表您的意见和看法。
可能是顯示的文字是「 AP ۷۷۸ DeepSeek Manus MDeepSeekManus, 中国真的是AI进步的 世界两大中心之一? 」的圖像
所有心情:
3