feat: cuvs acceleration for gpu k-means #2816

jacketsj · 2024-08-31T09:27:00Z

We currently have a pytorch-based k-means implementation for computing IVF centroids. This PR accelerates it with cuVS.
This uses a tradeoff of faster iterations/less score improvement per iteration.

By default, this is off, since it's primarily useful for very large datasets where large centroid counts are applicable.

Benchmarking (classic k-means scoring):

k=16384 clusters
text2image-10M base set (10M image embeddings, 200 dimensions, float32, cosine distance)

Results: Slightly better score @ ~1.5x faster. Speedup gets better with more centroids.

Easy test script & outputs

import numpy as np
from lance.cuvs.kmeans import KMeans as KMeansVS
from lance.torch.kmeans import KMeans
import lance
import time
# Note: This kind of approach performs quite poorly on random data (see https://arxiv.org/abs/2405.18680), so it's only worth testing on a real dataset
ds = lance.dataset("path/to/text2image-dataset") # can also use other medium~large datasets
data = np.stack(ds.to_table()["vector"].to_numpy())
max_iters_base = 10
max_iters_cuvs = 12 # iters using cuvs are much faster, but slightly less precise
metric = "cosine"

cuvs_start_time = time.time()
kmeans_cuvs = KMeansVS(
    CLUSTERS,
    metric=metric,
    max_iters=max_iters_cuvs,
    seed=0,
)
kmeans_cuvs.fit(data)
cuvs_end_time = time.time()

base_start_time = time.time()
kmeans = KMeans(
    CLUSTERS,
    metric=metric,
    max_iters=max_iters_base,
    seed=0,
)
kmeans.fit(data)
base_end_time = time.time()
print(f"score after {max_iters_cuvs} iters of kmeans_cuvs better than {max_iters_base} iters of kmeans by {kmeans.total_distance - kmeans_cuvs.total_distance}")
base_time = base_end_time-base_start_time
cuvs_time = cuvs_end_time-cuvs_start_time
print(f"time to run kmeans: {base_time}s. time to run kmeans_cuvs: {cuvs_time} (speedup: {base_time/cuvs_time}x)")

Output:

score after 12 iters of kmeans_cuvs better than 10 iters of kmeans by 5905.7138671875
time to run kmeans: 86.69116258621216s. time to run kmeans_cuvs: 56.66267776489258 (speedup: 1.5299517425899842x)

Additionally, a new "accelerator" choice has been added: "cuvs". This requires one of the added optional dependencies (cuvs-py3X, X in {9,10,11}). This can replace the two routines for which we already have cuda acceleration: IVF model training (Lloyd's algorithm) and IVF assignments. At sufficiently large centroid counts, this can significantly accelerate these steps, resulting in better e2e time. See below:

Although these plots are near-identical, the "cuvs" accelerated variation took ~18.1s to build e2e, while the "cuda" accelerated variation took ~24.4s.

This speedup persists on larger datasets, although I was mistaken in that PQ assignments are a bigger bottleneck as the dataset gets larger (thanks to some improvements I did not see), so this is not the bottleneck step. The next step after this PR will be to accelerate PQ with both cuda and cuvs.

python/python/lance/torch/data.py

python/python/lance/torch/kmeans.py

python/pyproject.toml

python/python/lance/torch/data.py

python/python/lance/torch/kmeans.py

python/pyproject.toml

python/python/lance/torch/kmeans.py

github-actions bot added enhancement New feature or request python labels Aug 31, 2024

jacketsj requested review from eddyxu and chebbyChefNEQ August 31, 2024 14:50

jacketsj marked this pull request as ready for review August 31, 2024 14:53

chebbyChefNEQ reviewed Aug 31, 2024

View reviewed changes

python/python/lance/torch/data.py Outdated Show resolved Hide resolved

chebbyChefNEQ reviewed Aug 31, 2024

View reviewed changes

python/python/lance/torch/kmeans.py Outdated Show resolved Hide resolved

chebbyChefNEQ reviewed Aug 31, 2024

View reviewed changes

python/python/lance/torch/kmeans.py Outdated Show resolved Hide resolved

eddyxu reviewed Aug 31, 2024

View reviewed changes

python/pyproject.toml Outdated Show resolved Hide resolved

python/python/lance/torch/data.py Outdated Show resolved Hide resolved

python/python/lance/torch/kmeans.py Outdated Show resolved Hide resolved

eddyxu reviewed Aug 31, 2024

View reviewed changes

python/pyproject.toml Outdated Show resolved Hide resolved

eddyxu reviewed Aug 31, 2024

View reviewed changes

python/python/lance/torch/kmeans.py Outdated Show resolved Hide resolved

eddyxu reviewed Aug 31, 2024

View reviewed changes

python/python/lance/torch/kmeans.py Outdated Show resolved Hide resolved

jacketsj requested a review from westonpace September 3, 2024 05:21

jacketsj force-pushed the jack/cuvs-accel branch from 13e7909 to b467b4f Compare September 4, 2024 17:19

jacketsj requested review from eddyxu, chebbyChefNEQ and wjones127 September 7, 2024 03:53

jacketsj mentioned this pull request Sep 11, 2024

feat: cuda/cuvs acceleration for PQ training/assignment #2853

Closed

jacketsj added 12 commits September 12, 2024 00:09

Accelerate k-means with cuvs

893088e

Accelerate k-means with cuvs

9907154

Clean up cuvs code, add it as a dependency

2e9a064

Add time logging, and clean up some param choices

d3a9583

Change use_cuvs to default=False and use logging.info for logging

0795607

Remove 'time_init'

d2f1b36

Autoformat

498fe00

Revert batch size

95674fc

Increase itopk_size over time, up to a reasonable limit

0825198

Adjust import methodology

4412cb9

Simplify imports

7d66605

Run autoformatter

5d59807

jacketsj added 20 commits September 12, 2024 00:09

More formatting

a71879c

Remove f strings in logging statements

2318b0b

Split line

e74aa83

Update based on linter

f9b1a8c

Run correct version of autoformatter

a33cdaf

subimports for cuvs and pylibraft

109f844

Add cuvs and pylibraft to full dependencies as a temporary measure

33c8678

Sort import block

5ebf485

Clean up commented code

7919477

Warnings -> Errors

58c5c98

Move modified kmeans module to cuvs/kmeans.py

9cc06af

Setup multiple optional cuvs dependencies for different python versions

4c5eb55

Fix imports, use cagra and device_ndarray directly

a6647b1

Add missing cuvs module init file

549ad27

Integrate cuvs kmeans into training/assignments for ivf

d035431

Run linter

75744c3

Move import check to top of kmeans.py

15c243a

Seemingly finally fix optional submodule dependencies

28259aa

Run ruff fixes

16e81c3

Add missing license header

a6f129f

jacketsj force-pushed the jack/cuvs-accel branch from 64b857a to a6f129f Compare September 12, 2024 07:13

Merge branch 'main' into jack/cuvs-accel

48ce370

chebbyChefNEQ approved these changes Sep 23, 2024

View reviewed changes

jacketsj merged commit ea78168 into main Sep 23, 2024
14 checks passed

jacketsj deleted the jack/cuvs-accel branch September 23, 2024 14:58

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: cuvs acceleration for gpu k-means #2816

feat: cuvs acceleration for gpu k-means #2816

jacketsj commented Aug 31, 2024 •

edited

Loading

feat: cuvs acceleration for gpu k-means #2816

feat: cuvs acceleration for gpu k-means #2816

Conversation

jacketsj commented Aug 31, 2024 • edited Loading

jacketsj commented Aug 31, 2024 •

edited

Loading