本帖最后由 螃蟹 于 2025-2-2 23:01 编辑
周文王 发表于 2025-2-2 15:29
这可以理解为专利授权,
或者文本资源授权。
语言环境是语言环境,蒸馏是蒸馏,蒸馏是依附于他人的更强大,更成熟的模型来训练自己的模型。再说简中网这类垃圾信息集散地的数据有啥用?呵呵。一般都是维基百科,网上数字图书馆之类,再就是大型社交平台。训练AI的数据环境要开放透明。封闭,敏感词遍地的语言环境,对AI训练恐怕只有反作用,只能搞出什么文心一言之类的东西……
算力(ai芯片),算法(模型)和信息环境,我反而担心的是信息环境。这个才是国产人工智能,在简中网未来发展的真正瓶颈。而且这个瓶颈是无法逾越的。
像DS这种一定是外部信息环境训练出来的。因为把模型部署到本地后,对一些敏感问题,完全可以正常的回答了。呵呵。显然内容审查是联网时单独加的。这也变相说明该模型本身并不是墙内语言环境训练出来的…… |