GPT-4o 拥有一个全新的分词器,它大大提高了非英语 token 的标记效率,同一个中文句子曾经看成 17 个词如今只看成 12 个词 (减少 1.4 倍)。也就是说,GPT-4o 实际上比宣布的更加便宜。
有了这个省钱分词器,大家玩得那叫一个开心。但没几个小时人们就开始发觉不对劲了,怎么它的语料库里充满一堆又长又规律的中文短语,什么”日本X片免费视频”、”中国福利彩票天天”、”无码不卡高清免费”,这些莫非是来自远古东方文明的长成语?
带着对世界第一性能 AI 的这个疑惑,他们请教了世界第一著名 AI —— 谷歌翻译……然后国际友人终于发现,原来 GPT-4o 在那美国父母管不到的角落里,疯狂阅读来自大洋彼岸的黄色钓鱼网站,它那正直智慧的表象下面原来隐藏着一颗饥渴的心。
main_horse (https://x.com/main_horse/status/1790099796193398831)
没有回复内容