传Deepseek从chatGPT公开API获得了大量data用于模型训练，是这么回事吗？

方外居士 2025-01-29 15:08:43 ( reads)

跟帖(9)

在成品上再加点花头也不是不可能的事

可以节省许多训练data的准备时间。

微软说是窃取了他们的数据。就是一个抄袭的问题

这是一个很大的指控，性质很不一样。chatGPT的核心数据应该不是微软所能掌控的。微软只是发现有大量数据传输，不知是什么

确切说，应该是DS也是付了很多费用给ChatGTP的。这是取巧罢了。

可能是从chatGPT获得了训练数据来训练模型。模型本身应该是全新的，否则不可能那那么少的成本训练成功。

FT 的报道说了很清楚，是OpenAI发现的，它正在用API在上面提炼（“蒸馏”）数据。但这违反服务条款，因为用户不得复

复制其任何服务或者使用其模型输出来开发与其OpenAI竞争的模型。

用数据做模式型训练也属于开发模型吗？