集成了音视频方面常见的一些开源 ai 模型,旨在为用户提供一个统一的接口,方便用户使用。
探索本项目的文档 »
·
报告Bug
·
提出新特性
请确保你的环境中有 cuda ,本项目目前只在 cuda11.8 上进行过测试。
对于每个项目的models文件,请自行下载,会提供下载链接,目前支持自动下载的有 RealESRGAN,NAFNet,SWINIR,RobustVideoMatting,Whisper-Faster 模型。
git clone --recursive https://github.com/NightWatcher314/MediaAIO
cd MediaAIO
poetry env use "path to your python executable"
poetry install --no-root
对于部分模型,需要额外的配置:
cd models/NAFNet
poetry init -n
poetry run pip install -r requirements.txt
poetry run python setup.py develop --no_cuda_ext
请确保在使用前完成相关的环境配置。
./start.bat
支持 RealESRGAN 与 RealSR 两类超分辨率模型。
支持 RIFE 与 VRT 两类视频插针模型。
支持 RobustVideoMatting 背景分离模型。
支持 RealESRGAN,NAFNet,SWINIR 等超分辨率模型。
支持 HAT,NAFNet,SWINIR 去雾模型。
支持 AnimeGAN,StyleGAN2 风格化模型。
支持 uvr5 系列的音频分离以及音频增强模型模型。
支持 Whisper-Faster 系列的音频识别模型。 对于中文,支持 FunASR 音频识别模型。
- eg:
filetree
├── LICENSE
├── README.md
├── download.py
├── logs
│ └── all
├── models
│ ├── ECCV2022-RIFE
│ ├── HAT
│ ├── NAFNet
│ ├── Real-ESRGAN
│ ├── RobustVideoMatting
│ ├── SwinIR
│ ├── VRT
│ ├── Whisper-Faster
│ ├── audio-separator
│ └── realsr-ncnn-vulkan
├── poetry.lock
├── pyproject.toml
├── pyproject_back.toml
├── src
│ ├── __pycache__
│ ├── config.py
│ ├── gradio_pages
│ ├── test.py
│ ├── utils
│ ├── warp
│ └── webui.py
├── start.bat
├── test_assets
│ ├── audio
│ ├── draw
│ ├── image
│ ├── output
│ └── video
└── verify.bat
前端部分采用了 gradio ,后端部分主要是利用subprocess或者直接load model来进行推理。
该项目签署了 BSD 3-Clause 授权许可,详情请参阅 LICENSE.txt