Skip to content

Latest commit

 

History

History
64 lines (37 loc) · 2.49 KB

README.md

File metadata and controls

64 lines (37 loc) · 2.49 KB

Kaleidoscope

Python Selenium 有颜色的爬虫

KALEIDOSCOPE

动机

看了一下github里的其他项目,最大的毛病是readme不行,项目不够简单好用,我一个技术垃圾想直接用感觉不行。因此决定更新Readme,表现出本项目的巨大优势,以迎合潜在市场,最终获取更多开源贡献、建议和更新。 2022.11.02

背景

随着扫黄越来越严格,现在网络上的东西都有隐形的时效性了。

本项目的巨大优势包括:

适用性极强

开发了一套通用的网页爬虫工具

  • 平台:windows。
  • IDE: Pycharm(完全免费,功能强大,UI良好,业界公认第一)
  • 爬取网站极多。包括:百度贴吧、QQ空间、小红书、抖音、tiktok、B站、知乎、电影网站、twitter、youtube等等。
  • 开发了一套通用的网页爬虫工具,一份代码,实现了到处乱爬
  • selenium档的福音。(封装了selenium库,从此用python开浏览器窗口模拟真实用户,击败一切反爬手段,一百年内消灭“道高一尺,魔高一丈”的爬虫战争
  • 目前已经下载了抖音2TB,B站8TB的视频。

永远不会被反爬

上手、学习、运行成本低
  • 纯python,单一语言,代码用到的高级(×)复杂(√)功能全无,无多线程,async,等看似复杂和高级的数据结构实则难以维护和底层的代码逻辑涉及,即使有笔者也已经全部简单封装并通过测试。甚至由此形成了一个

“ 项目附带一个小型的python私人专用工具库,常用功能一键调用 。”

.
上手、学习、运行成本降到最低(全网最低哈哈)
  • python代码极其简单,跟伪代码一样容易读懂。注释量高达70%
  • 虽然没有用到一句asyc OR multiprocess/thread,但一样实现并行功能。
  • 可视化和日志程度高的同时,
  • 项目体量小,是小屎山,同时代码高度解耦
  • 部分工作支持后台运行(你可以边干别的事边后台完全自动化)
  • 下载与VPN并不冲突
  • 下载工作速度完全可实时快速调控。(打开关闭正在运行的程序即可)
持续更新,高可用,不必担心哪一天项目停止更新需要找别的爬虫工具
  • 项目主人(每天)更新开发代码,开源社区回复及时
简单好用,代码易理解,一键运行.py文件即可

使用手册.md

开发手册.md