老京博客

防止被删贴，找个地方挂一下

首页文章列表博文目录

个人资料

京男

给我悄悄话

博客访问：

我是这样看人工智能生成图像的

(2024-02-26 05:57:59) 下一个

几个星期以前， OpenAI 公布了 Sora, 网上给出了美伦美奂的生成例子，一时间，互联网上齐声欢呼。

论坛里有些外行，比如伟哥，认为万物皆可生成的时代已经到来了。

谷歌为了表示不落后，马上公布自己的人工智能也能生成图像，结果网上测试，生成的马斯克是个黑人，生成的教父是个黑人，生成的所有人是黑人...

我的感觉， Sora网上只是显示了一种可能，就是AI能理解人们的语言表述，用自己的Video数据库里已有的Video碎片合成新的录像。其实谷歌也是表示自己也能做同样的事。

区别是， Sora只是有例子，并没开放让大家生成自己想要的Video

谷歌那个傻大个，为了不落后，直接让客户生成。

大家知道，生成的录像，不是天马行空地用模型造出来的，而是用理解你的语言要求，把学习到的录像碎片组合到一起，生成的录像。

那么， Sora生成的例子，也许只要库里学习过东京街头的片段，就可以生成很高质量的东京街头录像。学习过某种鸟，就可以生成同等质量的那种鸟的录像。人们所显示的，其实是能理解你的要求。

如果让Sora只学习了王家卫的繁花，让它生成上海90年代的黄河路，那么大概率的生成的录像是王家卫的风格，而不是聪明的一休的风格。

如果录像库里没有足够的你要求的录像，那么就生成不出来。好比谷歌的用的库都是用黑人的录像学习的，生成才会出现黑人马斯克。但是不能说明谷歌的理解语言，生成录像的技术，就一定比Sora差。也许只能说明，它理解的马斯克，它的知识范围里，在Video库里找到的最相近的，是个黑人模型。如果学习用的照片是家坦的，没准生成的人物里就会出现无主席，天仙。。

大家知道，文字信息到声音信息，存储量差别是几何数量级的，而声音到图形在到Video，每一级的存储量差别都是几何级别的。

Chat GPT学习了多少亿语言模型，才真正能生成语言。

那么Sora要搜索多少亿Video，才能生成任意要求的录像。生成的质量，完全取决于谁所拥有的录像库更大，谁的算力更高，谁的存储空间能大。

人工智能生成录像，还有很长路要走， Sora只是指明路是有可能可行的。

续：

加个有意思的链接

https://www.pingwest.com/a/234018

当然文章里有不少牛皮，但是

文章里的余凯，在德国时候，住我的房子里住了2年，我们没少交流对深度学习的看法。

文章里的这个照片，黑板上画的，正好是老京不干那行以后发展的状态，所以老京一看就明白，估计伟哥说不出个所以然。