传统爬虫还是 AI 辅助爬虫？该怎么选？: Page 2

coderhxl · 2024-04-22T10:07:47+00:00

前言在数据抓取领域，传统爬虫与 AI 辅助爬虫各有千秋。传统爬虫基于规则进行数据抓取，适用于结构稳定、规则明确的网站。然而，随着网站结构的频繁变动和复杂化，传统爬虫逐渐暴露出其局限性。相比之下，AI 辅助爬虫借助人工智能技术，能够智能解析网页、自适应变化，展现出更高的灵活性和准确性。那么，面对不同的抓取需求，我...

传统爬虫还是 AI 辅助爬虫？该怎么选？

zephyru

的确，这个自己玩玩还行，大规模抓取用 AI 辅助效率不高，当前成本还蛮高的...
与其让 Ai 解析 html 文本，不如让 AI 辅助生成解析用的函数...

coderhxl

zephyru 也是个不错的方法

hahahaii

zephyru 确实，可以加上使用 try 包裹，报错时，爬网页然后调用 gpt 生成新的函数。

coderhxl

blankmiss 该文章是面对依赖类名或结构这些元素的爬虫，像逆向这种肯定也很好，但是并非此文章的主题

enson110

用 AI 的成本呢？每篇都用 AI 成本很高吧？

coderhxl

enson110 要不咱看看总结那部分，“传统爬虫可能是一个更经济、更直接的选择”

624144061

好好好，这就看看实现 star 了

coderhxl

624144061 感谢您，https://coder-hxl.github.io/x-crawl/cn/guide/create-ai-application 这里可以免费领 api key

fank99

更像是自动的页面解析工具。。

coderhxl

fank99 可以这么理解，像依赖类名或结构这些元素的爬虫不也是对页面解析提取数据

coderhxl

maolon 传统爬虫可能是一个更经济的选择，文章也有提到

coderhxl

herozzm 这里也是筛选了部分 html 给 AI 进行提取数据

624144061

可以考虑做成 fastgpt 或者 dify 的插件，服务于 aigc ，本身就有本地大模型的前提下，这个库就不用考虑成本了

coderhxl

624144061 好滴

ayang23

喂给 AI 一个或几个页面，生成一个解析函数，再交给传统爬虫，就能用得起了。

coderhxl

ayang23 好方法，只是解析函数是如何应对通用爬虫的场景

triangle111

之前写过一个 TF-IDF 提取的页面内容的，不过感觉页面解析会有很多广告/推荐阅读等干扰信息，如果不排除掉直接上 AI 感觉效果应该不是很好。
另外这种感觉要么更小白点，直接搞个 gui 界面，要么更专业点，比如对一些接口进行 hook ，判断哪些 headers cookie 是关键的。

coderhxl

triangle111 对的，所以最好两者结合起来用，可以先获取 Body ，然后对 Body 内的一些元素进行删除，特别是 script 和 svg 这两个的内容，内容越多消耗的资源也就越多，而且还没啥用。这样就能以最小的代价利用 AI 爬取数据。

coderhxl

hahahaii 但是还是要考虑生成的函数如何应对通用爬虫的场景

barat

主要还是依赖 puppeteer ，没有 puppeteer ，AI 也是白搭，但是 puppeteer 又很重

coderhxl

barat puppeteer 用于模仿人类的行为，当然也可以用其他的获取页面内容