Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

wiseflow处理得到的info的摘要内容不理想。 #167

Open
calmyun opened this issue Dec 24, 2024 · 9 comments
Open

wiseflow处理得到的info的摘要内容不理想。 #167

calmyun opened this issue Dec 24, 2024 · 9 comments

Comments

@calmyun
Copy link

calmyun commented Dec 24, 2024

image
得到的info中的content如图所示。我作为用户的需求是wiseflow能根据爬取的这个网页,提炼这个网页的内容,并总结成一段跟我设置的focus_point密切相关的简要摘要。请问有什么方法优化。欢迎各位大神来留言。

@bigbrother666sh
Copy link
Member

你的图呢?
另外按你的描述存在逻辑误区,如果网页的内容和你的关注点不相关,又如何提炼总结为密切相关的摘要呢?
所以本质上依然是从网页中抽取你关注的信息点。

你可以把你要抽取的网站和你的兴趣点发出来,我们试着从这两块的关联性上入手优化。

@bigbrother666sh
Copy link
Member

我觉得你可以考虑为 focus_point 增加 explanation,以明确指定抽取的方向

@calmyun
Copy link
Author

calmyun commented Dec 25, 2024

你的图呢? 另外按你的描述存在逻辑误区,如果网页的内容和你的关注点不相关,又如何提炼总结为密切相关的摘要呢? 所以本质上依然是从网页中抽取你关注的信息点。

你可以把你要抽取的网站和你的兴趣点发出来,我们试着从这两块的关联性上入手优化。

我的根据focus_point来查找跟focus_point相关的url的,所以网页内容肯定是跟关注点相关的。

@bigbrother666sh
Copy link
Member

bigbrother666sh commented Dec 25, 2024

没太理解这个需求
“我的根据focus_point来查找跟focus_point相关的url的,所以网页内容肯定是跟关注点相关的。”

@calmyun
Copy link
Author

calmyun commented Dec 26, 2024

没太理解这个需求 “我的根据focus_point来查找跟focus_point相关的url的,所以网页内容肯定是跟关注点相关的。”

就是我本地部署的时候,我不是根据sites中的url来进行爬取的。我是根据focus_point,使用一些算法,来查找与focus_point密切相关的主流url,利用这些url进行爬取的。因此,我输入wiseflow的url都是跟focus_point密切相关的。

@calmyun
Copy link
Author

calmyun commented Dec 26, 2024

你的图呢? 另外按你的描述存在逻辑误区,如果网页的内容和你的关注点不相关,又如何提炼总结为密切相关的摘要呢? 所以本质上依然是从网页中抽取你关注的信息点。

你可以把你要抽取的网站和你的兴趣点发出来,我们试着从这两块的关联性上入手优化。

1
我已经在附件上加载了我关注点的信息。如图所示,我explanation字段也是设置了的。

@calmyun
Copy link
Author

calmyun commented Dec 27, 2024

你的图呢? 另外按你的描述存在逻辑误区,如果网页的内容和你的关注点不相关,又如何提炼总结为密切相关的摘要呢? 所以本质上依然是从网页中抽取你关注的信息点。

你可以把你要抽取的网站和你的兴趣点发出来,我们试着从这两块的关联性上入手优化。

1
contributor你好,我的信息源url是“https://news.ifeng.com/c/8cQ05ojx1SR”,focuspoint是“中美对抗”,explanation是“中国和美国近几年的政治新闻”,首要模型选用的Qwen2.5-32B-Instruct。设置好这些后,得到的info如图所示。
我的问题如下:
这些info都是同一个关注点-“中美对抗”,1个网页,但却匹配了多条记录(也就是1个url匹配了多个content)。我的需求是,infos表中,同一个关注点,1个url只需要匹配1条记录,对应1个content,这个content是这个url中所有关于这个关注点的精炼摘要总结。举个简单例子,比如图中的tag是“中美对抗”,url是“https://news.ifeng.com/c/8cQ05ojx1SR”,那么我希望经过wiseflow处理后,infos表中只需要生成1条url是“https://news.ifeng.com/c/8cQ05ojx1SR”的记录,这条记录中的content是url中所有关于“中美对抗”有关的精炼摘要总结。请问如何该如何实现呢?🌹🌹🌹

@bigbrother666sh
Copy link
Member

那你需要更改下 core/agent/get_info.py 里面的实现逻辑。
目前是按从 页面中抽取关注点相关信息,并独立呈现的逻辑设计的。这一过程会尽量保证符合原文,不进行改写。
或者你可以另外写一个脚本,从 pb 中读取已经抽取的条目,然后做处理,这样可能更加优雅一些。
也欢迎新功能提交 PR,祝顺利

@bigbrother666sh
Copy link
Member

@calmyun 可以尝试下 V0.3.6 应该会有改善
请重新拉取代码,pip uninstall crawlee pip install crawl4ai==0.4.245, 删除原来的 pb/pb_data 再试

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants