Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

某些公式无法抓取的问题 #365

Open
hugging opened this issue Apr 7, 2024 · 6 comments
Open

某些公式无法抓取的问题 #365

hugging opened this issue Apr 7, 2024 · 6 comments

Comments

@hugging
Copy link

hugging commented Apr 7, 2024

扩展版本:0.4.44
浏览器:Microsoft Edge版本 123.0.2420.81 (正式版本) (64 位)
系统:Windows 11 专业版 23H2
处理程序:浏览器
保存格式:Markdown

出问题的链接: 某微信公众号文章
抓取该网页的数学公式出现丢失的情况,原文公式如下图:

屏幕截图 2024-04-07 122700

保存的markdown文件:

屏幕截图 2024-04-07 122847

不止此处,该链接中几乎所有的公式都没抓取下来。
其中maoxian中markdown的设置为全默认。

谢谢!

@mika-cn
Copy link
Owner

mika-cn commented May 3, 2024

可以重现该问题,这个问题比较棘手,微信那边通过服务器用 mathjax 把公式渲染成 svg 格式,而 turndown 那边(maoxian 用到的一个 html 转 md 的库)直接忽略 svg 格式,所以导致公式的丢失。

会在下个版本处理掉这个问题,但是下个版本改动较大,得需要一段时间才能上线。

@hugging
Copy link
Author

hugging commented May 4, 2024

好的,感谢,期待!

@mika-cn
Copy link
Owner

mika-cn commented May 14, 2024

這個問題在 v0.5.0 上,可以用『毛線助手』解決。

請更新到新版本,並到設置頁面啓用 MaoXian 助手,訂閱公開的 Plan

再點擊『更新』按鈕,拉取最新公開的 Plan。


新版本上支持用戶對含有公式的元素進行標記,請看 這裏

@hugging
Copy link
Author

hugging commented Sep 13, 2024

感谢更新。
我将毛线更新到了0.6.0,启用了毛线助手并订阅了2个公开的plan,但保存上面那个微信公众号文章时问题依旧。
还尝试了只选中文章中的某个公式再保存,但仍然没有抓下来,md文件中公式部分是空的,assets中也没有图片。

@mika-cn
Copy link
Owner

mika-cn commented Sep 13, 2024

感謝進一步回饋,已經找到問題所在,構建腳本項目 maoixan-assistant 沒有添加上這些新的動作,導致在構建時忽略了。所以訂閱到的公開 plan 裏,沒有對公式的處理。

我已經修復了這個問題,也對公衆號的 plan 進行修正。你需要在設置頁面,下載最新的公開 plan。

@hugging
Copy link
Author

hugging commented Sep 13, 2024

现在好了,谢谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants