文学城论坛
+A-

这种爬虫软件20年前就有了, 比如offline web browser, 他就是存下来用GPT做个统计训练

testmobile 2025-06-28 18:44:40 ( reads)

跟帖(15)

richard_hz

2025-06-28 19:01:05

会用工具

testmobile

2025-06-28 19:04:50

这种工具使用是由公司开发出来的特定功能, 和WORD支持语法检查一样, 不是ai自己想的, 如果公司没开发, 他就做不到

richard_hz

2025-06-28 19:07:34

这个也不是问题

testmobile

2025-06-28 19:13:12

不能是第三方工具, 有版权问题, 这个网页爬虫是调用了PYTHON里免费的API,

richard_hz

2025-06-28 19:15:37

俺只是想说AI可以如何应用

当年情

2025-06-28 19:14:12

还是有显著区别

testmobile

2025-06-28 19:22:29

不是搜索用的爬虫,那种需要网站支持, 这是自动抓网页的软件, 对网站来说和人为点击没区别, 点进去可以用里面的链接一直抓

当年情

2025-06-28 19:25:23

本质区别还是rule based or react

testmobile

2025-06-28 19:29:14

抓网页这块是rule based, 是由程序员开发出来的通用功能, 分析总结不是rule based, 所以准确性不高

testmobile

2025-06-28 19:35:48

没有, GPT没有智能, 就是把抓下来的内容, 用训练模型的方法做统计, 算出可能性高的结果, 这一点让很多人很迷惑,

testmobile

2025-06-28 19:38:22

就是一种通过计算词和词之间关系的一种统计, 通过关连大小推出结果, 但让人觉得好像GPT能思考一样,

testmobile

2025-06-28 19:41:39

比如以前的夫妻肺片的例子, 大多数文档里夫妻和肺片没关联, 所以GPT结果只能描述一男一女, 需要人工加标注为菜名来纠错

Bob007

2025-06-29 06:38:18

大多数人第一次听说夫妻肺片一样需要别人解释来纠错

testmobile

2025-06-29 07:12:08

这个AI的打标注不是谁都可以做的,需要专门公司用专门软件加人工做, 和人类社会的教育体系不一样,

testmobile

2025-06-29 07:13:39

想想看人类的教育体系需要多少钱多少人工, 对于AI这些都得靠几个公司去做, 哪个公司能承受这个成本