nuomiphp
正在加载…
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
传统爬虫 还是 AI 辅助爬虫?该怎么选?
zephyru
的确,这个自己玩玩还行,大规模抓取用 AI 辅助效率不高,当前成本还蛮高的...
与其让 Ai 解析 html 文本,不如让 AI 辅助生成解析用的函数...
coderhxl
zephyru
也是个不错的方法
hahahaii
zephyru
确实,可以加上使用 try 包裹,报错时,爬网页然后调用 gpt 生成新的函数。
coderhxl
blankmiss
该文章是面对依赖类名或结构这些元素的爬虫,像逆向这种肯定也很好,但是并非此文章的主题
enson110
用 AI 的成本呢?每篇都用 AI 成本很高吧?
coderhxl
enson110
要不咱看看总结那部分,“传统爬虫可能是一个更经济、更直接的选择”
624144061
好好好,这就看看实现 star 了
coderhxl
624144061
感谢您,https://coder-hxl.github.io/x-crawl/cn/guide/create-ai-application 这里可以免费领 api key
fank99
更像是自动的页面解析工具。。
coderhxl
fank99
可以这么理解,像依赖类名或结构这些元素的爬虫不也是对页面解析提取数据
coderhxl
maolon
传统爬虫可能是一个更经济的选择,文章也有提到
coderhxl
herozzm
这里也是筛选了部分 html 给 AI 进行提取数据
624144061
可以考虑做成 fastgpt 或者 dify 的插件,服务于 aigc ,本身就有本地大模型的前提下,这个库就不用考虑成本了
coderhxl
624144061
好滴
ayang23
喂给 AI 一个或几个页面,生成一个解析函数,再交给传统爬虫,就能用得起了。
coderhxl
ayang23
好方法,只是解析函数是如何应对通用爬虫的场景
triangle111
之前写过一个 TF-IDF 提取的页面内容的,不过感觉页面解析会有很多广告/推荐阅读等干扰信息,如果不排除掉直接上 AI 感觉效果应该不是很好。
另外这种感觉要么更小白点,直接搞个 gui 界面,要么更专业点,比如对一些接口进行 hook ,判断哪些 headers cookie 是关键的。
coderhxl
triangle111
对的,所以最好两者结合起来用,可以先获取 Body ,然后对 Body 内的一些元素进行删除,特别是 script 和 svg 这两个的内容,内容越多消耗的资源也就越多,而且还没啥用。这样就能以最小的代价利用 AI 爬取数据。
coderhxl
hahahaii
但是还是要考虑生成的函数如何应对通用爬虫的场景
barat
主要还是依赖 puppeteer ,没有 puppeteer ,AI 也是白搭,但是 puppeteer 又很重
coderhxl
barat
puppeteer 用于模仿人类的行为,当然也可以用其他的获取页面内容
« 上一页
下一页 »