Improves `DeviceSegmentedSort` test run time for large number of items and segments #3246

elstehle · 2025-01-06T20:24:49Z

Description

Reduces the per-test run time from six minutes to six seconds.

Once this PR is merged, I'm planning to integrate a similar approach to DeviceSegmentedRadixSort in #3245.

The PR is touching two tests:

The test for verifying that large segments are sorted correctly
The test for verifying that a large number of segments are sorted correctly

For (1), we switched from invoking std::stable_sort as a means of verifying that the items were sorted correctly to using histograms over the input items. This lowered per-test-instance run time from six minutes to six seconds for these tests.

For (2), (a) tests never finished and (b) segment generation was generating overlapping segments, which lead to test failures, because it creates a race on which of the segments pointing to the same output region would be sorted first. So, we switched from generating random inputs to generating a sequence of 0, 1, 2, ..., max_histo_size-1, 0, 1, 2. We use a fixed segment size over this input sequence, chunking it up, say, every 1000 items. We then use an analytical model to compute the histogram over the input values for a given segment and use that histogram to understand what the sorted output range of that segment would look like. E.g., if we know 0 is repeated four times in the first segment, we know the sorted sequence should start with 0 and beginning at offset four should continue with key 1. So on and so forth.

Checklist

New or existing tests cover these changes.
The documentation is up to date with these changes.

github-actions · 2025-01-06T21:37:05Z

🟩 CI finished in 1h 07m: Pass: 100%/96 | Total: 20h 57m | Avg: 13m 05s | Max: 42m 53s | Hits: 98%/12392

🟩 cub: Pass: 100%/47 | Total: 13h 49m | Avg: 17m 39s | Max: 38m 22s | Hits: 94%/3132

🟩 cpu
  🟩 amd64              Pass: 100%/45  | Total: 13h 17m | Avg: 17m 43s | Max: 38m 22s | Hits:  94%/3132  
  🟩 arm64              Pass: 100%/2   | Total: 32m 40s | Avg: 16m 20s | Max: 16m 28s
🟩 ctk
  🟩 11.1               Pass: 100%/7   | Total:  2h 09m | Avg: 18m 32s | Max: 38m 22s | Hits:  93%/783   
  🟩 12.5               Pass: 100%/2   | Total: 44m 38s | Avg: 22m 19s | Max: 22m 44s
  🟩 12.6               Pass: 100%/38  | Total: 10h 55m | Avg: 17m 15s | Max: 28m 52s | Hits:  94%/2349  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 23m 14s | Avg: 11m 37s | Max: 11m 42s
  🟩 nvcc11.1           Pass: 100%/7   | Total:  2h 09m | Avg: 18m 32s | Max: 38m 22s | Hits:  93%/783   
  🟩 nvcc12.5           Pass: 100%/2   | Total: 44m 38s | Avg: 22m 19s | Max: 22m 44s
  🟩 nvcc12.6           Pass: 100%/36  | Total: 10h 32m | Avg: 17m 33s | Max: 28m 52s | Hits:  94%/2349  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 23m 14s | Avg: 11m 37s | Max: 11m 42s
  🟩 nvcc               Pass: 100%/45  | Total: 13h 26m | Avg: 17m 55s | Max: 38m 22s | Hits:  94%/3132  
🟩 cxx
  🟩 Clang9             Pass: 100%/4   | Total:  1h 04m | Avg: 16m 11s | Max: 18m 13s
  🟩 Clang10            Pass: 100%/1   | Total: 16m 51s | Avg: 16m 51s | Max: 16m 51s
  🟩 Clang11            Pass: 100%/1   | Total: 16m 55s | Avg: 16m 55s | Max: 16m 55s
  🟩 Clang12            Pass: 100%/1   | Total: 15m 03s | Avg: 15m 03s | Max: 15m 03s
  🟩 Clang13            Pass: 100%/1   | Total: 14m 34s | Avg: 14m 34s | Max: 14m 34s
  🟩 Clang14            Pass: 100%/1   | Total: 15m 55s | Avg: 15m 55s | Max: 15m 55s
  🟩 Clang15            Pass: 100%/1   | Total: 16m 48s | Avg: 16m 48s | Max: 16m 48s
  🟩 Clang16            Pass: 100%/1   | Total: 17m 07s | Avg: 17m 07s | Max: 17m 07s
  🟩 Clang17            Pass: 100%/1   | Total: 16m 19s | Avg: 16m 19s | Max: 16m 19s
  🟩 Clang18            Pass: 100%/7   | Total:  1h 48m | Avg: 15m 31s | Max: 20m 34s
  🟩 GCC6               Pass: 100%/2   | Total: 31m 50s | Avg: 15m 55s | Max: 16m 01s
  🟩 GCC7               Pass: 100%/2   | Total: 34m 32s | Avg: 17m 16s | Max: 17m 50s
  🟩 GCC8               Pass: 100%/1   | Total: 16m 02s | Avg: 16m 02s | Max: 16m 02s
  🟩 GCC9               Pass: 100%/3   | Total: 47m 32s | Avg: 15m 50s | Max: 17m 21s
  🟩 GCC10              Pass: 100%/1   | Total: 15m 48s | Avg: 15m 48s | Max: 15m 48s
  🟩 GCC11              Pass: 100%/1   | Total: 15m 47s | Avg: 15m 47s | Max: 15m 47s
  🟩 GCC12              Pass: 100%/3   | Total: 42m 00s | Avg: 14m 00s | Max: 17m 43s
  🟩 GCC13              Pass: 100%/8   | Total:  2h 19m | Avg: 17m 25s | Max: 25m 36s
  🟩 Intel2023.2.0      Pass: 100%/1   | Total: 18m 58s | Avg: 18m 58s | Max: 18m 58s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 38m 22s | Avg: 38m 22s | Max: 38m 22s | Hits:  93%/783   
  🟩 MSVC14.29          Pass: 100%/1   | Total: 27m 27s | Avg: 27m 27s | Max: 27m 27s | Hits:  93%/783   
  🟩 MSVC14.39          Pass: 100%/2   | Total: 54m 39s | Avg: 27m 19s | Max: 28m 52s | Hits:  94%/1566  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 44m 38s | Avg: 22m 19s | Max: 22m 44s
🟩 cxx_family
  🟩 Clang              Pass: 100%/19  | Total:  5h 02m | Avg: 15m 56s | Max: 20m 34s
  🟩 GCC                Pass: 100%/21  | Total:  5h 42m | Avg: 16m 19s | Max: 25m 36s
  🟩 Intel              Pass: 100%/1   | Total: 18m 58s | Avg: 18m 58s | Max: 18m 58s
  🟩 MSVC               Pass: 100%/4   | Total:  2h 00m | Avg: 30m 07s | Max: 38m 22s | Hits:  94%/3132  
  🟩 NVHPC              Pass: 100%/2   | Total: 44m 38s | Avg: 22m 19s | Max: 22m 44s
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 24m 17s | Avg: 12m 08s | Max: 15m 57s
  🟩 v100               Pass: 100%/45  | Total: 13h 25m | Avg: 17m 54s | Max: 38m 22s | Hits:  94%/3132  
🟩 jobs
  🟩 Build              Pass: 100%/40  | Total: 11h 33m | Avg: 17m 20s | Max: 38m 22s | Hits:  94%/3132  
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 20m 38s | Avg: 20m 38s | Max: 20m 38s
  🟩 GraphCapture       Pass: 100%/1   | Total: 14m 48s | Avg: 14m 48s | Max: 14m 48s
  🟩 HostLaunch         Pass: 100%/3   | Total: 54m 24s | Avg: 18m 08s | Max: 20m 00s
  🟩 TestGPU            Pass: 100%/2   | Total: 46m 10s | Avg: 23m 05s | Max: 25m 36s
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 24m 17s | Avg: 12m 08s | Max: 15m 57s
  🟩 90a                Pass: 100%/1   | Total:  8m 53s | Avg:  8m 53s | Max:  8m 53s
🟩 std
  🟩 11                 Pass: 100%/5   | Total:  1h 21m | Avg: 16m 15s | Max: 17m 50s
  🟩 14                 Pass: 100%/4   | Total:  1h 29m | Avg: 22m 19s | Max: 38m 22s | Hits:  93%/783   
  🟩 17                 Pass: 100%/12  | Total:  3h 37m | Avg: 18m 06s | Max: 27m 27s | Hits:  93%/1566  
  🟩 20                 Pass: 100%/26  | Total:  7h 22m | Avg: 17m 00s | Max: 28m 52s | Hits:  94%/783

🟩 thrust: Pass: 100%/46 | Total: 6h 31m | Avg: 8m 30s | Max: 42m 53s | Hits: 99%/9260

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 19m 17s | Avg:  9m 38s | Max: 12m 57s
🟩 cpu
  🟩 amd64              Pass: 100%/44  | Total:  6h 21m | Avg:  8m 40s | Max: 42m 53s | Hits:  99%/9260  
  🟩 arm64              Pass: 100%/2   | Total:  9m 42s | Avg:  4m 51s | Max:  5m 13s
🟩 ctk
  🟩 11.1               Pass: 100%/7   | Total: 44m 17s | Avg:  6m 19s | Max: 18m 28s | Hits:  99%/1852  
  🟩 12.5               Pass: 100%/2   | Total: 29m 19s | Avg: 14m 39s | Max: 15m 25s
  🟩 12.6               Pass: 100%/37  | Total:  5h 17m | Avg:  8m 34s | Max: 42m 53s | Hits:  99%/7408  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 05s | Avg:  5m 02s | Max:  5m 05s
  🟩 nvcc11.1           Pass: 100%/7   | Total: 44m 17s | Avg:  6m 19s | Max: 18m 28s | Hits:  99%/1852  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 29m 19s | Avg: 14m 39s | Max: 15m 25s
  🟩 nvcc12.6           Pass: 100%/35  | Total:  5h 07m | Avg:  8m 46s | Max: 42m 53s | Hits:  99%/7408  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 05s | Avg:  5m 02s | Max:  5m 05s
  🟩 nvcc               Pass: 100%/44  | Total:  6h 21m | Avg:  8m 39s | Max: 42m 53s | Hits:  99%/9260  
🟩 cxx
  🟩 Clang9             Pass: 100%/4   | Total: 20m 50s | Avg:  5m 12s | Max:  6m 14s
  🟩 Clang10            Pass: 100%/1   | Total:  6m 32s | Avg:  6m 32s | Max:  6m 32s
  🟩 Clang11            Pass: 100%/1   | Total:  5m 09s | Avg:  5m 09s | Max:  5m 09s
  🟩 Clang12            Pass: 100%/1   | Total:  4m 57s | Avg:  4m 57s | Max:  4m 57s
  🟩 Clang13            Pass: 100%/1   | Total:  5m 00s | Avg:  5m 00s | Max:  5m 00s
  🟩 Clang14            Pass: 100%/1   | Total:  4m 58s | Avg:  4m 58s | Max:  4m 58s
  🟩 Clang15            Pass: 100%/1   | Total:  5m 32s | Avg:  5m 32s | Max:  5m 32s
  🟩 Clang16            Pass: 100%/1   | Total:  5m 24s | Avg:  5m 24s | Max:  5m 24s
  🟩 Clang17            Pass: 100%/1   | Total:  5m 49s | Avg:  5m 49s | Max:  5m 49s
  🟩 Clang18            Pass: 100%/7   | Total: 44m 09s | Avg:  6m 18s | Max: 10m 39s
  🟩 GCC6               Pass: 100%/2   | Total:  8m 12s | Avg:  4m 06s | Max:  4m 31s
  🟩 GCC7               Pass: 100%/2   | Total: 10m 22s | Avg:  5m 11s | Max:  5m 27s
  🟩 GCC8               Pass: 100%/1   | Total:  5m 39s | Avg:  5m 39s | Max:  5m 39s
  🟩 GCC9               Pass: 100%/3   | Total: 14m 52s | Avg:  4m 57s | Max:  6m 05s
  🟩 GCC10              Pass: 100%/1   | Total:  5m 09s | Avg:  5m 09s | Max:  5m 09s
  🟩 GCC11              Pass: 100%/1   | Total: 42m 53s | Avg: 42m 53s | Max: 42m 53s
  🟩 GCC12              Pass: 100%/1   | Total:  5m 59s | Avg:  5m 59s | Max:  5m 59s
  🟩 GCC13              Pass: 100%/8   | Total:  1h 01m | Avg:  7m 42s | Max: 12m 57s
  🟩 Intel2023.2.0      Pass: 100%/1   | Total:  7m 04s | Avg:  7m 04s | Max:  7m 04s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 18m 28s | Avg: 18m 28s | Max: 18m 28s | Hits:  99%/1852  
  🟩 MSVC14.29          Pass: 100%/1   | Total: 16m 27s | Avg: 16m 27s | Max: 16m 27s | Hits:  99%/1852  
  🟩 MSVC14.39          Pass: 100%/3   | Total: 56m 39s | Avg: 18m 53s | Max: 22m 33s | Hits:  99%/5556  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 29m 19s | Avg: 14m 39s | Max: 15m 25s
🟩 cxx_family
  🟩 Clang              Pass: 100%/19  | Total:  1h 48m | Avg:  5m 42s | Max: 10m 39s
  🟩 GCC                Pass: 100%/19  | Total:  2h 34m | Avg:  8m 08s | Max: 42m 53s
  🟩 Intel              Pass: 100%/1   | Total:  7m 04s | Avg:  7m 04s | Max:  7m 04s
  🟩 MSVC               Pass: 100%/5   | Total:  1h 31m | Avg: 18m 18s | Max: 22m 33s | Hits:  99%/9260  
  🟩 NVHPC              Pass: 100%/2   | Total: 29m 19s | Avg: 14m 39s | Max: 15m 25s
🟩 gpu
  🟩 v100               Pass: 100%/46  | Total:  6h 31m | Avg:  8m 30s | Max: 42m 53s | Hits:  99%/9260  
🟩 jobs
  🟩 Build              Pass: 100%/40  | Total:  5h 16m | Avg:  7m 55s | Max: 42m 53s | Hits:  99%/7408  
  🟩 TestCPU            Pass: 100%/3   | Total: 38m 48s | Avg: 12m 56s | Max: 22m 33s | Hits:  99%/1852  
  🟩 TestGPU            Pass: 100%/3   | Total: 35m 25s | Avg: 11m 48s | Max: 12m 57s
🟩 sm
  🟩 90a                Pass: 100%/1   | Total:  4m 39s | Avg:  4m 39s | Max:  4m 39s
🟩 std
  🟩 11                 Pass: 100%/5   | Total: 22m 43s | Avg:  4m 32s | Max:  5m 46s
  🟩 14                 Pass: 100%/4   | Total: 34m 40s | Avg:  8m 40s | Max: 18m 28s | Hits:  99%/1852  
  🟩 17                 Pass: 100%/12  | Total:  1h 39m | Avg:  8m 17s | Max: 17m 42s | Hits:  99%/3704  
  🟩 20                 Pass: 100%/23  | Total:  3h 34m | Avg:  9m 20s | Max: 42m 53s | Hits:  99%/3704

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 8m 50s | Avg: 4m 25s | Max: 6m 40s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total:  8m 50s | Avg:  4m 25s | Max:  6m 40s
🟩 ctk
  🟩 12.6               Pass: 100%/2   | Total:  8m 50s | Avg:  4m 25s | Max:  6m 40s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/2   | Total:  8m 50s | Avg:  4m 25s | Max:  6m 40s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total:  8m 50s | Avg:  4m 25s | Max:  6m 40s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total:  8m 50s | Avg:  4m 25s | Max:  6m 40s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total:  8m 50s | Avg:  4m 25s | Max:  6m 40s
🟩 gpu
  🟩 v100               Pass: 100%/2   | Total:  8m 50s | Avg:  4m 25s | Max:  6m 40s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 10s | Avg:  2m 10s | Max:  2m 10s
  🟩 Test               Pass: 100%/1   | Total:  6m 40s | Avg:  6m 40s | Max:  6m 40s

🟩 python: Pass: 100%/1 | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s
🟩 ctk
  🟩 12.6               Pass: 100%/1   | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/1   | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 96)

#	Runner
71	`linux-amd64-cpu16`
11	`linux-amd64-gpu-v100-latest-1`
9	`windows-amd64-cpu16`
4	`linux-arm64-cpu16`
1	`linux-amd64-gpu-h100-latest-1-testing`

github-actions · 2025-01-07T05:06:23Z

🟩 CI finished in 1h 53m: Pass: 100%/96 | Total: 13h 56m | Avg: 8m 42s | Max: 35m 43s | Hits: 99%/12392

🟩 cub: Pass: 100%/47 | Total: 6h 37m | Avg: 8m 26s | Max: 24m 19s | Hits: 99%/3132

🟩 cpu
  🟩 amd64              Pass: 100%/45  | Total:  6h 26m | Avg:  8m 35s | Max: 24m 19s | Hits:  99%/3132  
  🟩 arm64              Pass: 100%/2   | Total: 10m 03s | Avg:  5m 01s | Max:  5m 10s
🟩 ctk
  🟩 11.1               Pass: 100%/7   | Total: 41m 20s | Avg:  5m 54s | Max: 15m 11s | Hits:  99%/783   
  🟩 12.5               Pass: 100%/2   | Total: 18m 21s | Avg:  9m 10s | Max:  9m 14s
  🟩 12.6               Pass: 100%/38  | Total:  5h 37m | Avg:  8m 52s | Max: 24m 19s | Hits:  99%/2349  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  8m 34s | Avg:  4m 17s | Max:  4m 19s
  🟩 nvcc11.1           Pass: 100%/7   | Total: 41m 20s | Avg:  5m 54s | Max: 15m 11s | Hits:  99%/783   
  🟩 nvcc12.5           Pass: 100%/2   | Total: 18m 21s | Avg:  9m 10s | Max:  9m 14s
  🟩 nvcc12.6           Pass: 100%/36  | Total:  5h 28m | Avg:  9m 07s | Max: 24m 19s | Hits:  99%/2349  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  8m 34s | Avg:  4m 17s | Max:  4m 19s
  🟩 nvcc               Pass: 100%/45  | Total:  6h 28m | Avg:  8m 37s | Max: 24m 19s | Hits:  99%/3132  
🟩 cxx
  🟩 Clang9             Pass: 100%/4   | Total: 21m 29s | Avg:  5m 22s | Max:  6m 41s
  🟩 Clang10            Pass: 100%/1   | Total:  6m 27s | Avg:  6m 27s | Max:  6m 27s
  🟩 Clang11            Pass: 100%/1   | Total:  5m 29s | Avg:  5m 29s | Max:  5m 29s
  🟩 Clang12            Pass: 100%/1   | Total:  5m 17s | Avg:  5m 17s | Max:  5m 17s
  🟩 Clang13            Pass: 100%/1   | Total:  5m 45s | Avg:  5m 45s | Max:  5m 45s
  🟩 Clang14            Pass: 100%/1   | Total:  5m 22s | Avg:  5m 22s | Max:  5m 22s
  🟩 Clang15            Pass: 100%/1   | Total:  5m 58s | Avg:  5m 58s | Max:  5m 58s
  🟩 Clang16            Pass: 100%/1   | Total:  5m 49s | Avg:  5m 49s | Max:  5m 49s
  🟩 Clang17            Pass: 100%/1   | Total:  5m 25s | Avg:  5m 25s | Max:  5m 25s
  🟩 Clang18            Pass: 100%/7   | Total:  1h 06m | Avg:  9m 27s | Max: 24m 19s
  🟩 GCC6               Pass: 100%/2   | Total:  8m 44s | Avg:  4m 22s | Max:  4m 27s
  🟩 GCC7               Pass: 100%/2   | Total: 11m 27s | Avg:  5m 43s | Max:  6m 12s
  🟩 GCC8               Pass: 100%/1   | Total:  5m 11s | Avg:  5m 11s | Max:  5m 11s
  🟩 GCC9               Pass: 100%/3   | Total: 14m 14s | Avg:  4m 44s | Max:  5m 39s
  🟩 GCC10              Pass: 100%/1   | Total:  5m 17s | Avg:  5m 17s | Max:  5m 17s
  🟩 GCC11              Pass: 100%/1   | Total:  5m 39s | Avg:  5m 39s | Max:  5m 39s
  🟩 GCC12              Pass: 100%/3   | Total: 33m 03s | Avg: 11m 01s | Max: 22m 56s
  🟩 GCC13              Pass: 100%/8   | Total:  1h 40m | Avg: 12m 31s | Max: 23m 16s
  🟩 Intel2023.2.0      Pass: 100%/1   | Total:  6m 53s | Avg:  6m 53s | Max:  6m 53s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 15m 11s | Avg: 15m 11s | Max: 15m 11s | Hits:  99%/783   
  🟩 MSVC14.29          Pass: 100%/1   | Total: 12m 06s | Avg: 12m 06s | Max: 12m 06s | Hits:  99%/783   
  🟩 MSVC14.39          Pass: 100%/2   | Total: 27m 28s | Avg: 13m 44s | Max: 14m 05s | Hits:  99%/1566  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 18m 21s | Avg:  9m 10s | Max:  9m 14s
🟩 cxx_family
  🟩 Clang              Pass: 100%/19  | Total:  2h 13m | Avg:  7m 00s | Max: 24m 19s
  🟩 GCC                Pass: 100%/21  | Total:  3h 03m | Avg:  8m 45s | Max: 23m 16s
  🟩 Intel              Pass: 100%/1   | Total:  6m 53s | Avg:  6m 53s | Max:  6m 53s
  🟩 MSVC               Pass: 100%/4   | Total: 54m 45s | Avg: 13m 41s | Max: 15m 11s | Hits:  99%/3132  
  🟩 NVHPC              Pass: 100%/2   | Total: 18m 21s | Avg:  9m 10s | Max:  9m 14s
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 27m 15s | Avg: 13m 37s | Max: 22m 56s
  🟩 v100               Pass: 100%/45  | Total:  6h 09m | Avg:  8m 13s | Max: 24m 19s | Hits:  99%/3132  
🟩 jobs
  🟩 Build              Pass: 100%/40  | Total:  4h 13m | Avg:  6m 20s | Max: 15m 11s | Hits:  99%/3132  
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 19m 23s | Avg: 19m 23s | Max: 19m 23s
  🟩 GraphCapture       Pass: 100%/1   | Total: 19m 38s | Avg: 19m 38s | Max: 19m 38s
  🟩 HostLaunch         Pass: 100%/3   | Total: 56m 55s | Avg: 18m 58s | Max: 22m 56s
  🟩 TestGPU            Pass: 100%/2   | Total: 47m 35s | Avg: 23m 47s | Max: 24m 19s
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 27m 15s | Avg: 13m 37s | Max: 22m 56s
  🟩 90a                Pass: 100%/1   | Total:  4m 44s | Avg:  4m 44s | Max:  4m 44s
🟩 std
  🟩 11                 Pass: 100%/5   | Total: 24m 02s | Avg:  4m 48s | Max:  5m 58s
  🟩 14                 Pass: 100%/4   | Total: 32m 31s | Avg:  8m 07s | Max: 15m 11s | Hits:  99%/783   
  🟩 17                 Pass: 100%/12  | Total:  1h 24m | Avg:  7m 00s | Max: 14m 05s | Hits:  99%/1566  
  🟩 20                 Pass: 100%/26  | Total:  4h 16m | Avg:  9m 51s | Max: 24m 19s | Hits:  99%/783

🟩 thrust: Pass: 100%/46 | Total: 6h 33m | Avg: 8m 33s | Max: 28m 00s | Hits: 99%/9260

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 21m 24s | Avg: 10m 42s | Max: 15m 22s
🟩 cpu
  🟩 amd64              Pass: 100%/44  | Total:  6h 23m | Avg:  8m 42s | Max: 28m 00s | Hits:  99%/9260  
  🟩 arm64              Pass: 100%/2   | Total:  9m 59s | Avg:  4m 59s | Max:  5m 28s
🟩 ctk
  🟩 11.1               Pass: 100%/7   | Total:  1h 10m | Avg: 10m 00s | Max: 28m 00s | Hits:  99%/1852  
  🟩 12.5               Pass: 100%/2   | Total: 32m 12s | Avg: 16m 06s | Max: 16m 13s
  🟩 12.6               Pass: 100%/37  | Total:  4h 51m | Avg:  7m 52s | Max: 21m 46s | Hits:  99%/7408  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 39s | Avg:  5m 19s | Max:  5m 21s
  🟩 nvcc11.1           Pass: 100%/7   | Total:  1h 10m | Avg: 10m 00s | Max: 28m 00s | Hits:  99%/1852  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 32m 12s | Avg: 16m 06s | Max: 16m 13s
  🟩 nvcc12.6           Pass: 100%/35  | Total:  4h 40m | Avg:  8m 00s | Max: 21m 46s | Hits:  99%/7408  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 39s | Avg:  5m 19s | Max:  5m 21s
  🟩 nvcc               Pass: 100%/44  | Total:  6h 22m | Avg:  8m 41s | Max: 28m 00s | Hits:  99%/9260  
🟩 cxx
  🟩 Clang9             Pass: 100%/4   | Total: 21m 19s | Avg:  5m 19s | Max:  6m 22s
  🟩 Clang10            Pass: 100%/1   | Total:  6m 40s | Avg:  6m 40s | Max:  6m 40s
  🟩 Clang11            Pass: 100%/1   | Total:  5m 16s | Avg:  5m 16s | Max:  5m 16s
  🟩 Clang12            Pass: 100%/1   | Total:  5m 38s | Avg:  5m 38s | Max:  5m 38s
  🟩 Clang13            Pass: 100%/1   | Total:  5m 24s | Avg:  5m 24s | Max:  5m 24s
  🟩 Clang14            Pass: 100%/1   | Total:  5m 15s | Avg:  5m 15s | Max:  5m 15s
  🟩 Clang15            Pass: 100%/1   | Total:  5m 54s | Avg:  5m 54s | Max:  5m 54s
  🟩 Clang16            Pass: 100%/1   | Total:  5m 50s | Avg:  5m 50s | Max:  5m 50s
  🟩 Clang17            Pass: 100%/1   | Total:  5m 52s | Avg:  5m 52s | Max:  5m 52s
  🟩 Clang18            Pass: 100%/7   | Total: 45m 57s | Avg:  6m 33s | Max: 12m 28s
  🟩 GCC6               Pass: 100%/2   | Total: 32m 20s | Avg: 16m 10s | Max: 28m 00s
  🟩 GCC7               Pass: 100%/2   | Total:  9m 57s | Avg:  4m 58s | Max:  5m 27s
  🟩 GCC8               Pass: 100%/1   | Total:  5m 27s | Avg:  5m 27s | Max:  5m 27s
  🟩 GCC9               Pass: 100%/3   | Total: 14m 46s | Avg:  4m 55s | Max:  5m 58s
  🟩 GCC10              Pass: 100%/1   | Total:  5m 51s | Avg:  5m 51s | Max:  5m 51s
  🟩 GCC11              Pass: 100%/1   | Total:  5m 35s | Avg:  5m 35s | Max:  5m 35s
  🟩 GCC12              Pass: 100%/1   | Total:  5m 44s | Avg:  5m 44s | Max:  5m 44s
  🟩 GCC13              Pass: 100%/8   | Total:  1h 08m | Avg:  8m 31s | Max: 16m 27s
  🟩 Intel2023.2.0      Pass: 100%/1   | Total:  6m 31s | Avg:  6m 31s | Max:  6m 31s
  🟩 MSVC14.16          Pass: 100%/1   | Total: 19m 36s | Avg: 19m 36s | Max: 19m 36s | Hits:  99%/1852  
  🟩 MSVC14.29          Pass: 100%/1   | Total: 16m 46s | Avg: 16m 46s | Max: 16m 46s | Hits:  99%/1852  
  🟩 MSVC14.39          Pass: 100%/3   | Total: 57m 16s | Avg: 19m 05s | Max: 21m 46s | Hits:  99%/5556  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 32m 12s | Avg: 16m 06s | Max: 16m 13s
🟩 cxx_family
  🟩 Clang              Pass: 100%/19  | Total:  1h 53m | Avg:  5m 57s | Max: 12m 28s
  🟩 GCC                Pass: 100%/19  | Total:  2h 27m | Avg:  7m 47s | Max: 28m 00s
  🟩 Intel              Pass: 100%/1   | Total:  6m 31s | Avg:  6m 31s | Max:  6m 31s
  🟩 MSVC               Pass: 100%/5   | Total:  1h 33m | Avg: 18m 43s | Max: 21m 46s | Hits:  99%/9260  
  🟩 NVHPC              Pass: 100%/2   | Total: 32m 12s | Avg: 16m 06s | Max: 16m 13s
🟩 gpu
  🟩 v100               Pass: 100%/46  | Total:  6h 33m | Avg:  8m 33s | Max: 28m 00s | Hits:  99%/9260  
🟩 jobs
  🟩 Build              Pass: 100%/40  | Total:  5h 12m | Avg:  7m 48s | Max: 28m 00s | Hits:  99%/7408  
  🟩 TestCPU            Pass: 100%/3   | Total: 36m 39s | Avg: 12m 13s | Max: 21m 46s | Hits:  99%/1852  
  🟩 TestGPU            Pass: 100%/3   | Total: 44m 17s | Avg: 14m 45s | Max: 16m 27s
🟩 sm
  🟩 90a                Pass: 100%/1   | Total:  4m 48s | Avg:  4m 48s | Max:  4m 48s
🟩 std
  🟩 11                 Pass: 100%/5   | Total: 46m 47s | Avg:  9m 21s | Max: 28m 00s
  🟩 14                 Pass: 100%/4   | Total: 35m 45s | Avg:  8m 56s | Max: 19m 36s | Hits:  99%/1852  
  🟩 17                 Pass: 100%/12  | Total:  1h 40m | Avg:  8m 24s | Max: 16m 46s | Hits:  99%/3704  
  🟩 20                 Pass: 100%/23  | Total:  3h 08m | Avg:  8m 11s | Max: 21m 46s | Hits:  99%/3704

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 24s | Avg: 5m 12s | Max: 8m 17s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 10m 24s | Avg:  5m 12s | Max:  8m 17s
🟩 ctk
  🟩 12.6               Pass: 100%/2   | Total: 10m 24s | Avg:  5m 12s | Max:  8m 17s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/2   | Total: 10m 24s | Avg:  5m 12s | Max:  8m 17s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 10m 24s | Avg:  5m 12s | Max:  8m 17s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 10m 24s | Avg:  5m 12s | Max:  8m 17s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 10m 24s | Avg:  5m 12s | Max:  8m 17s
🟩 gpu
  🟩 v100               Pass: 100%/2   | Total: 10m 24s | Avg:  5m 12s | Max:  8m 17s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 07s | Avg:  2m 07s | Max:  2m 07s
  🟩 Test               Pass: 100%/1   | Total:  8m 17s | Avg:  8m 17s | Max:  8m 17s

🟩 python: Pass: 100%/1 | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s
🟩 ctk
  🟩 12.6               Pass: 100%/1   | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/1   | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 96)

#	Runner
71	`linux-amd64-cpu16`
11	`linux-amd64-gpu-v100-latest-1`
9	`windows-amd64-cpu16`
4	`linux-arm64-cpu16`
1	`linux-amd64-gpu-h100-latest-1-testing`

github-actions · 2025-01-09T12:41:25Z

🟨 CI finished in 1h 45m: Pass: 98%/92 | Total: 1d 03h | Avg: 18m 02s | Max: 1h 16m | Hits: 160%/9748

🟨 cub: Pass: 97%/45 | Total: 16h 40m | Avg: 22m 13s | Max: 1h 13m | Hits: 187%/2340

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  97%/43  | Total: 16h 05m | Avg: 22m 26s | Max:  1h 13m | Hits: 187%/2340  
  🟩 arm64              Pass: 100%/2   | Total: 35m 03s | Avg: 17m 31s | Max: 17m 34s
🔍 ctk: 12.6 🔍
  🟩 11.1               Pass: 100%/6   | Total:  1h 29m | Avg: 14m 59s | Max: 16m 35s
  🟩 12.5               Pass: 100%/2   | Total:  2h 20m | Avg:  1h 10m | Max:  1h 11m
  🔍 12.6               Pass:  97%/37  | Total: 12h 49m | Avg: 20m 47s | Max:  1h 13m | Hits: 187%/2340  
🔍 cudacxx: nvcc12.6 🔍
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 24m 01s | Avg: 12m 00s | Max: 12m 30s
  🟩 nvcc11.1           Pass: 100%/6   | Total:  1h 29m | Avg: 14m 59s | Max: 16m 35s
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 20m | Avg:  1h 10m | Max:  1h 11m
  🔍 nvcc12.6           Pass:  97%/35  | Total: 12h 25m | Avg: 21m 18s | Max:  1h 13m | Hits: 187%/2340  
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total: 24m 01s | Avg: 12m 00s | Max: 12m 30s
  🔍 nvcc               Pass:  97%/43  | Total: 16h 16m | Avg: 22m 41s | Max:  1h 13m | Hits: 187%/2340  
🔍 cxx: GCC13 🔍
  🟩 Clang9             Pass: 100%/4   | Total:  1h 03m | Avg: 15m 51s | Max: 16m 47s
  🟩 Clang10            Pass: 100%/1   | Total: 16m 21s | Avg: 16m 21s | Max: 16m 21s
  🟩 Clang11            Pass: 100%/1   | Total: 15m 31s | Avg: 15m 31s | Max: 15m 31s
  🟩 Clang12            Pass: 100%/1   | Total: 15m 20s | Avg: 15m 20s | Max: 15m 20s
  🟩 Clang13            Pass: 100%/1   | Total: 16m 35s | Avg: 16m 35s | Max: 16m 35s
  🟩 Clang14            Pass: 100%/1   | Total: 16m 08s | Avg: 16m 08s | Max: 16m 08s
  🟩 Clang15            Pass: 100%/1   | Total: 16m 11s | Avg: 16m 11s | Max: 16m 11s
  🟩 Clang16            Pass: 100%/1   | Total: 17m 29s | Avg: 17m 29s | Max: 17m 29s
  🟩 Clang17            Pass: 100%/1   | Total: 14m 53s | Avg: 14m 53s | Max: 14m 53s
  🟩 Clang18            Pass: 100%/7   | Total:  2h 13m | Avg: 19m 00s | Max: 35m 55s
  🟩 GCC7               Pass: 100%/4   | Total:  1h 02m | Avg: 15m 33s | Max: 17m 31s
  🟩 GCC8               Pass: 100%/1   | Total: 16m 03s | Avg: 16m 03s | Max: 16m 03s
  🟩 GCC9               Pass: 100%/3   | Total: 47m 22s | Avg: 15m 47s | Max: 16m 35s
  🟩 GCC10              Pass: 100%/1   | Total: 15m 14s | Avg: 15m 14s | Max: 15m 14s
  🟩 GCC11              Pass: 100%/1   | Total: 14m 57s | Avg: 14m 57s | Max: 14m 57s
  🟩 GCC12              Pass: 100%/3   | Total: 40m 56s | Avg: 13m 38s | Max: 16m 00s
  🔍 GCC13              Pass:  87%/8   | Total:  2h 10m | Avg: 16m 21s | Max: 31m 15s
  🟩 MSVC14.29          Pass: 100%/1   | Total:  1h 02m | Avg:  1h 02m | Max:  1h 02m | Hits: 188%/780   
  🟩 MSVC14.39          Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 13m | Hits: 186%/1560  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 20m | Avg:  1h 10m | Max:  1h 11m
🔍 cxx_family: GCC 🔍
  🟩 Clang              Pass: 100%/19  | Total:  5h 24m | Avg: 17m 06s | Max: 35m 55s
  🔍 GCC                Pass:  95%/21  | Total:  5h 27m | Avg: 15m 36s | Max: 31m 15s
  🟩 MSVC               Pass: 100%/3   | Total:  3h 26m | Avg:  1h 08m | Max:  1h 13m | Hits: 187%/2340  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 20m | Avg:  1h 10m | Max:  1h 11m
🔍 gpu: v100 🔍
  🟩 h100               Pass: 100%/2   | Total: 25m 01s | Avg: 12m 30s | Max: 16m 00s
  🔍 v100               Pass:  97%/43  | Total: 16h 15m | Avg: 22m 40s | Max:  1h 13m | Hits: 187%/2340  
🚨 jobs: DeviceLaunch 🚨
  🟩 Build              Pass: 100%/38  | Total: 14h 09m | Avg: 22m 21s | Max:  1h 13m | Hits: 187%/2340  
  🔥 DeviceLaunch       Pass:   0%/1   | Total:  3m 21s | Avg:  3m 21s | Max:  3m 21s
  🟩 GraphCapture       Pass: 100%/1   | Total: 16m 08s | Avg: 16m 08s | Max: 16m 08s
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 03m | Avg: 21m 12s | Max: 26m 50s
  🟩 TestGPU            Pass: 100%/2   | Total:  1h 07m | Avg: 33m 35s | Max: 35m 55s
🔍 std: 20 🔍
  🟩 11                 Pass: 100%/5   | Total:  1h 19m | Avg: 15m 49s | Max: 16m 46s
  🟩 14                 Pass: 100%/2   | Total: 34m 18s | Avg: 17m 09s | Max: 17m 31s
  🟩 17                 Pass: 100%/12  | Total:  5h 36m | Avg: 28m 03s | Max:  1h 11m | Hits: 188%/1560  
  🔍 20                 Pass:  96%/26  | Total:  9h 09m | Avg: 21m 09s | Max:  1h 13m | Hits: 185%/780   
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 25m 01s | Avg: 12m 30s | Max: 16m 00s
  🟩 90a                Pass: 100%/1   | Total:  8m 54s | Avg:  8m 54s | Max:  8m 54s

🟩 thrust: Pass: 100%/44 | Total: 10h 18m | Avg: 14m 03s | Max: 1h 16m | Hits: 151%/7408

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 28m 14s | Avg: 14m 07s | Max: 22m 06s
🟩 cpu
  🟩 amd64              Pass: 100%/42  | Total: 10h 09m | Avg: 14m 30s | Max:  1h 16m | Hits: 151%/7408  
  🟩 arm64              Pass: 100%/2   | Total:  9m 21s | Avg:  4m 40s | Max:  4m 53s
🟩 ctk
  🟩 11.1               Pass: 100%/6   | Total: 24m 11s | Avg:  4m 01s | Max:  4m 27s
  🟩 12.5               Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 16m
  🟩 12.6               Pass: 100%/36  | Total:  7h 29m | Avg: 12m 29s | Max:  1h 02m | Hits: 151%/7408  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 11s | Avg:  5m 05s | Max:  5m 18s
  🟩 nvcc11.1           Pass: 100%/6   | Total: 24m 11s | Avg:  4m 01s | Max:  4m 27s
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 16m
  🟩 nvcc12.6           Pass: 100%/34  | Total:  7h 19m | Avg: 12m 55s | Max:  1h 02m | Hits: 151%/7408  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 11s | Avg:  5m 05s | Max:  5m 18s
  🟩 nvcc               Pass: 100%/42  | Total: 10h 08m | Avg: 14m 29s | Max:  1h 16m | Hits: 151%/7408  
🟩 cxx
  🟩 Clang9             Pass: 100%/4   | Total: 20m 00s | Avg:  5m 00s | Max:  6m 21s
  🟩 Clang10            Pass: 100%/1   | Total:  7m 11s | Avg:  7m 11s | Max:  7m 11s
  🟩 Clang11            Pass: 100%/1   | Total:  4m 55s | Avg:  4m 55s | Max:  4m 55s
  🟩 Clang12            Pass: 100%/1   | Total:  5m 05s | Avg:  5m 05s | Max:  5m 05s
  🟩 Clang13            Pass: 100%/1   | Total:  4m 58s | Avg:  4m 58s | Max:  4m 58s
  🟩 Clang14            Pass: 100%/1   | Total:  5m 30s | Avg:  5m 30s | Max:  5m 30s
  🟩 Clang15            Pass: 100%/1   | Total:  5m 31s | Avg:  5m 31s | Max:  5m 31s
  🟩 Clang16            Pass: 100%/1   | Total:  5m 17s | Avg:  5m 17s | Max:  5m 17s
  🟩 Clang17            Pass: 100%/1   | Total:  5m 13s | Avg:  5m 13s | Max:  5m 13s
  🟩 Clang18            Pass: 100%/7   | Total: 56m 29s | Avg:  8m 04s | Max: 22m 50s
  🟩 GCC7               Pass: 100%/4   | Total: 17m 49s | Avg:  4m 27s | Max:  5m 25s
  🟩 GCC8               Pass: 100%/1   | Total:  5m 03s | Avg:  5m 03s | Max:  5m 03s
  🟩 GCC9               Pass: 100%/3   | Total: 13m 44s | Avg:  4m 34s | Max:  5m 34s
  🟩 GCC10              Pass: 100%/1   | Total:  5m 17s | Avg:  5m 17s | Max:  5m 17s
  🟩 GCC11              Pass: 100%/1   | Total:  5m 42s | Avg:  5m 42s | Max:  5m 42s
  🟩 GCC12              Pass: 100%/1   | Total:  6m 08s | Avg:  6m 08s | Max:  6m 08s
  🟩 GCC13              Pass: 100%/8   | Total:  1h 20m | Avg: 10m 01s | Max: 23m 04s
  🟩 MSVC14.29          Pass: 100%/1   | Total:  1h 02m | Avg:  1h 02m | Max:  1h 02m | Hits:  80%/1852  
  🟩 MSVC14.39          Pass: 100%/3   | Total:  2h 36m | Avg: 52m 18s | Max:  1h 02m | Hits: 175%/5556  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 16m
🟩 cxx_family
  🟩 Clang              Pass: 100%/19  | Total:  2h 00m | Avg:  6m 19s | Max: 22m 50s
  🟩 GCC                Pass: 100%/19  | Total:  2h 13m | Avg:  7m 02s | Max: 23m 04s
  🟩 MSVC               Pass: 100%/4   | Total:  3h 39m | Avg: 54m 57s | Max:  1h 02m | Hits: 151%/7408  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 16m
🟩 gpu
  🟩 v100               Pass: 100%/44  | Total: 10h 18m | Avg: 14m 03s | Max:  1h 16m | Hits: 151%/7408  
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total:  8h 16m | Avg: 13m 04s | Max:  1h 16m | Hits:  80%/5556  
  🟩 TestCPU            Pass: 100%/3   | Total: 53m 51s | Avg: 17m 57s | Max: 37m 42s | Hits: 365%/1852  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 08m | Avg: 22m 40s | Max: 23m 04s
🟩 sm
  🟩 90a                Pass: 100%/1   | Total:  4m 15s | Avg:  4m 15s | Max:  4m 15s
🟩 std
  🟩 11                 Pass: 100%/5   | Total: 21m 14s | Avg:  4m 14s | Max:  5m 21s
  🟩 14                 Pass: 100%/2   | Total: 11m 46s | Avg:  5m 53s | Max:  6m 21s
  🟩 17                 Pass: 100%/12  | Total:  4h 04m | Avg: 20m 21s | Max:  1h 16m | Hits:  80%/3704  
  🟩 20                 Pass: 100%/23  | Total:  5h 13m | Avg: 13m 37s | Max:  1h 08m | Hits: 223%/3704

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 13m 45s | Avg: 6m 52s | Max: 11m 46s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 ctk
  🟩 12.6               Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 gpu
  🟩 v100               Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  1m 59s | Avg:  1m 59s | Max:  1m 59s
  🟩 Test               Pass: 100%/1   | Total: 11m 46s | Avg: 11m 46s | Max: 11m 46s

🟩 python: Pass: 100%/1 | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 ctk
  🟩 12.6               Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 92)

#	Runner
69	`linux-amd64-cpu16`
11	`linux-amd64-gpu-v100-latest-1`
7	`windows-amd64-cpu16`
4	`linux-arm64-cpu16`
1	`linux-amd64-gpu-h100-latest-1-testing`

github-actions · 2025-01-09T13:32:48Z

🟩 CI finished in 2h 37m: Pass: 100%/92 | Total: 1d 03h | Avg: 18m 11s | Max: 1h 16m | Hits: 160%/9748

🟩 cub: Pass: 100%/45 | Total: 16h 54m | Avg: 22m 32s | Max: 1h 13m | Hits: 187%/2340

🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total: 16h 19m | Avg: 22m 46s | Max:  1h 13m | Hits: 187%/2340  
  🟩 arm64              Pass: 100%/2   | Total: 35m 03s | Avg: 17m 31s | Max: 17m 34s
🟩 ctk
  🟩 11.1               Pass: 100%/6   | Total:  1h 29m | Avg: 14m 59s | Max: 16m 35s
  🟩 12.5               Pass: 100%/2   | Total:  2h 20m | Avg:  1h 10m | Max:  1h 11m
  🟩 12.6               Pass: 100%/37  | Total: 13h 03m | Avg: 21m 11s | Max:  1h 13m | Hits: 187%/2340  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 24m 01s | Avg: 12m 00s | Max: 12m 30s
  🟩 nvcc11.1           Pass: 100%/6   | Total:  1h 29m | Avg: 14m 59s | Max: 16m 35s
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 20m | Avg:  1h 10m | Max:  1h 11m
  🟩 nvcc12.6           Pass: 100%/35  | Total: 12h 39m | Avg: 21m 42s | Max:  1h 13m | Hits: 187%/2340  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 24m 01s | Avg: 12m 00s | Max: 12m 30s
  🟩 nvcc               Pass: 100%/43  | Total: 16h 30m | Avg: 23m 01s | Max:  1h 13m | Hits: 187%/2340  
🟩 cxx
  🟩 Clang9             Pass: 100%/4   | Total:  1h 03m | Avg: 15m 51s | Max: 16m 47s
  🟩 Clang10            Pass: 100%/1   | Total: 16m 21s | Avg: 16m 21s | Max: 16m 21s
  🟩 Clang11            Pass: 100%/1   | Total: 15m 31s | Avg: 15m 31s | Max: 15m 31s
  🟩 Clang12            Pass: 100%/1   | Total: 15m 20s | Avg: 15m 20s | Max: 15m 20s
  🟩 Clang13            Pass: 100%/1   | Total: 16m 35s | Avg: 16m 35s | Max: 16m 35s
  🟩 Clang14            Pass: 100%/1   | Total: 16m 08s | Avg: 16m 08s | Max: 16m 08s
  🟩 Clang15            Pass: 100%/1   | Total: 16m 11s | Avg: 16m 11s | Max: 16m 11s
  🟩 Clang16            Pass: 100%/1   | Total: 17m 29s | Avg: 17m 29s | Max: 17m 29s
  🟩 Clang17            Pass: 100%/1   | Total: 14m 53s | Avg: 14m 53s | Max: 14m 53s
  🟩 Clang18            Pass: 100%/7   | Total:  2h 13m | Avg: 19m 00s | Max: 35m 55s
  🟩 GCC7               Pass: 100%/4   | Total:  1h 02m | Avg: 15m 33s | Max: 17m 31s
  🟩 GCC8               Pass: 100%/1   | Total: 16m 03s | Avg: 16m 03s | Max: 16m 03s
  🟩 GCC9               Pass: 100%/3   | Total: 47m 22s | Avg: 15m 47s | Max: 16m 35s
  🟩 GCC10              Pass: 100%/1   | Total: 15m 14s | Avg: 15m 14s | Max: 15m 14s
  🟩 GCC11              Pass: 100%/1   | Total: 14m 57s | Avg: 14m 57s | Max: 14m 57s
  🟩 GCC12              Pass: 100%/3   | Total: 40m 56s | Avg: 13m 38s | Max: 16m 00s
  🟩 GCC13              Pass: 100%/8   | Total:  2h 25m | Avg: 18m 09s | Max: 31m 15s
  🟩 MSVC14.29          Pass: 100%/1   | Total:  1h 02m | Avg:  1h 02m | Max:  1h 02m | Hits: 188%/780   
  🟩 MSVC14.39          Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 13m | Hits: 186%/1560  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 20m | Avg:  1h 10m | Max:  1h 11m
🟩 cxx_family
  🟩 Clang              Pass: 100%/19  | Total:  5h 24m | Avg: 17m 06s | Max: 35m 55s
  🟩 GCC                Pass: 100%/21  | Total:  5h 42m | Avg: 16m 17s | Max: 31m 15s
  🟩 MSVC               Pass: 100%/3   | Total:  3h 26m | Avg:  1h 08m | Max:  1h 13m | Hits: 187%/2340  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 20m | Avg:  1h 10m | Max:  1h 11m
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 25m 01s | Avg: 12m 30s | Max: 16m 00s
  🟩 v100               Pass: 100%/43  | Total: 16h 29m | Avg: 23m 00s | Max:  1h 13m | Hits: 187%/2340  
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total: 14h 09m | Avg: 22m 21s | Max:  1h 13m | Hits: 187%/2340  
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 17m 42s | Avg: 17m 42s | Max: 17m 42s
  🟩 GraphCapture       Pass: 100%/1   | Total: 16m 08s | Avg: 16m 08s | Max: 16m 08s
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 03m | Avg: 21m 12s | Max: 26m 50s
  🟩 TestGPU            Pass: 100%/2   | Total:  1h 07m | Avg: 33m 35s | Max: 35m 55s
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 25m 01s | Avg: 12m 30s | Max: 16m 00s
  🟩 90a                Pass: 100%/1   | Total:  8m 54s | Avg:  8m 54s | Max:  8m 54s
🟩 std
  🟩 11                 Pass: 100%/5   | Total:  1h 19m | Avg: 15m 49s | Max: 16m 46s
  🟩 14                 Pass: 100%/2   | Total: 34m 18s | Avg: 17m 09s | Max: 17m 31s
  🟩 17                 Pass: 100%/12  | Total:  5h 36m | Avg: 28m 03s | Max:  1h 11m | Hits: 188%/1560  
  🟩 20                 Pass: 100%/26  | Total:  9h 24m | Avg: 21m 42s | Max:  1h 13m | Hits: 185%/780

🟩 thrust: Pass: 100%/44 | Total: 10h 18m | Avg: 14m 03s | Max: 1h 16m | Hits: 151%/7408

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 28m 14s | Avg: 14m 07s | Max: 22m 06s
🟩 cpu
  🟩 amd64              Pass: 100%/42  | Total: 10h 09m | Avg: 14m 30s | Max:  1h 16m | Hits: 151%/7408  
  🟩 arm64              Pass: 100%/2   | Total:  9m 21s | Avg:  4m 40s | Max:  4m 53s
🟩 ctk
  🟩 11.1               Pass: 100%/6   | Total: 24m 11s | Avg:  4m 01s | Max:  4m 27s
  🟩 12.5               Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 16m
  🟩 12.6               Pass: 100%/36  | Total:  7h 29m | Avg: 12m 29s | Max:  1h 02m | Hits: 151%/7408  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 11s | Avg:  5m 05s | Max:  5m 18s
  🟩 nvcc11.1           Pass: 100%/6   | Total: 24m 11s | Avg:  4m 01s | Max:  4m 27s
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 16m
  🟩 nvcc12.6           Pass: 100%/34  | Total:  7h 19m | Avg: 12m 55s | Max:  1h 02m | Hits: 151%/7408  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 11s | Avg:  5m 05s | Max:  5m 18s
  🟩 nvcc               Pass: 100%/42  | Total: 10h 08m | Avg: 14m 29s | Max:  1h 16m | Hits: 151%/7408  
🟩 cxx
  🟩 Clang9             Pass: 100%/4   | Total: 20m 00s | Avg:  5m 00s | Max:  6m 21s
  🟩 Clang10            Pass: 100%/1   | Total:  7m 11s | Avg:  7m 11s | Max:  7m 11s
  🟩 Clang11            Pass: 100%/1   | Total:  4m 55s | Avg:  4m 55s | Max:  4m 55s
  🟩 Clang12            Pass: 100%/1   | Total:  5m 05s | Avg:  5m 05s | Max:  5m 05s
  🟩 Clang13            Pass: 100%/1   | Total:  4m 58s | Avg:  4m 58s | Max:  4m 58s
  🟩 Clang14            Pass: 100%/1   | Total:  5m 30s | Avg:  5m 30s | Max:  5m 30s
  🟩 Clang15            Pass: 100%/1   | Total:  5m 31s | Avg:  5m 31s | Max:  5m 31s
  🟩 Clang16            Pass: 100%/1   | Total:  5m 17s | Avg:  5m 17s | Max:  5m 17s
  🟩 Clang17            Pass: 100%/1   | Total:  5m 13s | Avg:  5m 13s | Max:  5m 13s
  🟩 Clang18            Pass: 100%/7   | Total: 56m 29s | Avg:  8m 04s | Max: 22m 50s
  🟩 GCC7               Pass: 100%/4   | Total: 17m 49s | Avg:  4m 27s | Max:  5m 25s
  🟩 GCC8               Pass: 100%/1   | Total:  5m 03s | Avg:  5m 03s | Max:  5m 03s
  🟩 GCC9               Pass: 100%/3   | Total: 13m 44s | Avg:  4m 34s | Max:  5m 34s
  🟩 GCC10              Pass: 100%/1   | Total:  5m 17s | Avg:  5m 17s | Max:  5m 17s
  🟩 GCC11              Pass: 100%/1   | Total:  5m 42s | Avg:  5m 42s | Max:  5m 42s
  🟩 GCC12              Pass: 100%/1   | Total:  6m 08s | Avg:  6m 08s | Max:  6m 08s
  🟩 GCC13              Pass: 100%/8   | Total:  1h 20m | Avg: 10m 01s | Max: 23m 04s
  🟩 MSVC14.29          Pass: 100%/1   | Total:  1h 02m | Avg:  1h 02m | Max:  1h 02m | Hits:  80%/1852  
  🟩 MSVC14.39          Pass: 100%/3   | Total:  2h 36m | Avg: 52m 18s | Max:  1h 02m | Hits: 175%/5556  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 16m
🟩 cxx_family
  🟩 Clang              Pass: 100%/19  | Total:  2h 00m | Avg:  6m 19s | Max: 22m 50s
  🟩 GCC                Pass: 100%/19  | Total:  2h 13m | Avg:  7m 02s | Max: 23m 04s
  🟩 MSVC               Pass: 100%/4   | Total:  3h 39m | Avg: 54m 57s | Max:  1h 02m | Hits: 151%/7408  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 16m
🟩 gpu
  🟩 v100               Pass: 100%/44  | Total: 10h 18m | Avg: 14m 03s | Max:  1h 16m | Hits: 151%/7408  
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total:  8h 16m | Avg: 13m 04s | Max:  1h 16m | Hits:  80%/5556  
  🟩 TestCPU            Pass: 100%/3   | Total: 53m 51s | Avg: 17m 57s | Max: 37m 42s | Hits: 365%/1852  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 08m | Avg: 22m 40s | Max: 23m 04s
🟩 sm
  🟩 90a                Pass: 100%/1   | Total:  4m 15s | Avg:  4m 15s | Max:  4m 15s
🟩 std
  🟩 11                 Pass: 100%/5   | Total: 21m 14s | Avg:  4m 14s | Max:  5m 21s
  🟩 14                 Pass: 100%/2   | Total: 11m 46s | Avg:  5m 53s | Max:  6m 21s
  🟩 17                 Pass: 100%/12  | Total:  4h 04m | Avg: 20m 21s | Max:  1h 16m | Hits:  80%/3704  
  🟩 20                 Pass: 100%/23  | Total:  5h 13m | Avg: 13m 37s | Max:  1h 08m | Hits: 223%/3704

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 13m 45s | Avg: 6m 52s | Max: 11m 46s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 ctk
  🟩 12.6               Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 gpu
  🟩 v100               Pass: 100%/2   | Total: 13m 45s | Avg:  6m 52s | Max: 11m 46s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  1m 59s | Avg:  1m 59s | Max:  1m 59s
  🟩 Test               Pass: 100%/1   | Total: 11m 46s | Avg: 11m 46s | Max: 11m 46s

🟩 python: Pass: 100%/1 | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 ctk
  🟩 12.6               Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 92)

#	Runner
69	`linux-amd64-cpu16`
11	`linux-amd64-gpu-v100-latest-1`
7	`windows-amd64-cpu16`
4	`linux-arm64-cpu16`
1	`linux-amd64-gpu-h100-latest-1-testing`

github-actions · 2025-01-09T18:19:15Z

🟩 CI finished in 2h 01m: Pass: 100%/96 | Total: 2d 16h | Avg: 40m 14s | Max: 1h 06m | Hits: 303%/15012

🟩 cub: Pass: 100%/47 | Total: 1d 15h | Avg: 50m 27s | Max: 1h 06m | Hits: 410%/3900

🟩 cpu
  🟩 amd64              Pass: 100%/45  | Total:  1d 13h | Avg: 50m 11s | Max:  1h 06m | Hits: 410%/3900  
  🟩 arm64              Pass: 100%/2   | Total:  1h 53m | Avg: 56m 35s | Max: 58m 47s
🟩 ctk
  🟩 12.0               Pass: 100%/8   | Total:  7h 21m | Avg: 55m 09s | Max:  1h 02m | Hits: 421%/1560  
  🟩 12.5               Pass: 100%/2   | Total:  2h 09m | Avg:  1h 04m | Max:  1h 06m
  🟩 12.6               Pass: 100%/37  | Total:  1d 06h | Avg: 48m 40s | Max:  1h 06m | Hits: 403%/2340  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  1h 59m | Avg: 59m 36s | Max:  1h 00m
  🟩 nvcc12.0           Pass: 100%/8   | Total:  7h 21m | Avg: 55m 09s | Max:  1h 02m | Hits: 421%/1560  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 09m | Avg:  1h 04m | Max:  1h 06m
  🟩 nvcc12.6           Pass: 100%/35  | Total:  1d 04h | Avg: 48m 03s | Max:  1h 06m | Hits: 403%/2340  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  1h 59m | Avg: 59m 36s | Max:  1h 00m
  🟩 nvcc               Pass: 100%/45  | Total:  1d 13h | Avg: 50m 03s | Max:  1h 06m | Hits: 410%/3900  
🟩 cxx
  🟩 Clang9             Pass: 100%/4   | Total:  3h 44m | Avg: 56m 01s | Max: 58m 33s
  🟩 Clang10            Pass: 100%/1   | Total: 54m 01s | Avg: 54m 01s | Max: 54m 01s
  🟩 Clang11            Pass: 100%/1   | Total: 53m 23s | Avg: 53m 23s | Max: 53m 23s
  🟩 Clang12            Pass: 100%/1   | Total: 51m 15s | Avg: 51m 15s | Max: 51m 15s
  🟩 Clang13            Pass: 100%/1   | Total: 55m 00s | Avg: 55m 00s | Max: 55m 00s
  🟩 Clang14            Pass: 100%/1   | Total: 52m 22s | Avg: 52m 22s | Max: 52m 22s
  🟩 Clang15            Pass: 100%/1   | Total: 56m 26s | Avg: 56m 26s | Max: 56m 26s
  🟩 Clang16            Pass: 100%/1   | Total: 57m 32s | Avg: 57m 32s | Max: 57m 32s
  🟩 Clang17            Pass: 100%/1   | Total: 51m 39s | Avg: 51m 39s | Max: 51m 39s
  🟩 Clang18            Pass: 100%/7   | Total:  6h 08m | Avg: 52m 34s | Max:  1h 00m
  🟩 GCC7               Pass: 100%/4   | Total:  3h 35m | Avg: 53m 55s | Max: 57m 03s
  🟩 GCC8               Pass: 100%/1   | Total: 56m 29s | Avg: 56m 29s | Max: 56m 29s
  🟩 GCC9               Pass: 100%/3   | Total:  2h 38m | Avg: 52m 59s | Max: 54m 37s
  🟩 GCC10              Pass: 100%/1   | Total: 59m 36s | Avg: 59m 36s | Max: 59m 36s
  🟩 GCC11              Pass: 100%/1   | Total: 52m 30s | Avg: 52m 30s | Max: 52m 30s
  🟩 GCC12              Pass: 100%/3   | Total:  1h 36m | Avg: 32m 12s | Max: 54m 34s
  🟩 GCC13              Pass: 100%/8   | Total:  4h 43m | Avg: 35m 25s | Max: 58m 51s
  🟩 MSVC14.29          Pass: 100%/3   | Total:  2h 48m | Avg: 56m 13s | Max:  1h 02m | Hits: 422%/2340  
  🟩 MSVC14.39          Pass: 100%/2   | Total:  2h 06m | Avg:  1h 03m | Max:  1h 06m | Hits: 392%/1560  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 09m | Avg:  1h 04m | Max:  1h 06m
🟩 cxx_family
  🟩 Clang              Pass: 100%/19  | Total: 17h 03m | Avg: 53m 53s | Max:  1h 00m
  🟩 GCC                Pass: 100%/21  | Total: 15h 23m | Avg: 43m 57s | Max: 59m 36s
  🟩 MSVC               Pass: 100%/5   | Total:  4h 55m | Avg: 59m 03s | Max:  1h 06m | Hits: 410%/3900  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 09m | Avg:  1h 04m | Max:  1h 06m
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 42m 04s | Avg: 21m 02s | Max: 26m 03s
  🟩 v100               Pass: 100%/45  | Total:  1d 14h | Avg: 51m 46s | Max:  1h 06m | Hits: 410%/3900  
🟩 jobs
  🟩 Build              Pass: 100%/40  | Total:  1d 12h | Avg: 54m 44s | Max:  1h 06m | Hits: 410%/3900  
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 22m 17s | Avg: 22m 17s | Max: 22m 17s
  🟩 GraphCapture       Pass: 100%/1   | Total: 27m 12s | Avg: 27m 12s | Max: 27m 12s
  🟩 HostLaunch         Pass: 100%/3   | Total: 52m 41s | Avg: 17m 33s | Max: 19m 21s
  🟩 TestGPU            Pass: 100%/2   | Total:  1h 20m | Avg: 40m 05s | Max:  1h 00m
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 42m 04s | Avg: 21m 02s | Max: 26m 03s
  🟩 90a                Pass: 100%/1   | Total: 24m 58s | Avg: 24m 58s | Max: 24m 58s
🟩 std
  🟩 11                 Pass: 100%/5   | Total:  4h 29m | Avg: 53m 51s | Max: 58m 33s
  🟩 14                 Pass: 100%/3   | Total:  2h 51m | Avg: 57m 13s | Max:  1h 02m | Hits: 421%/780   
  🟩 17                 Pass: 100%/13  | Total: 12h 07m | Avg: 55m 59s | Max:  1h 02m | Hits: 410%/2340  
  🟩 20                 Pass: 100%/26  | Total: 20h 02m | Avg: 46m 16s | Max:  1h 06m | Hits: 401%/780

🟩 thrust: Pass: 100%/46 | Total: 1d 00h | Avg: 31m 37s | Max: 56m 10s | Hits: 266%/11112

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 37m 41s | Avg: 18m 50s | Max: 25m 58s
🟩 cpu
  🟩 amd64              Pass: 100%/44  | Total: 23h 14m | Avg: 31m 41s | Max: 56m 10s | Hits: 266%/11112 
  🟩 arm64              Pass: 100%/2   | Total:  1h 00m | Avg: 30m 08s | Max: 31m 42s
🟩 ctk
  🟩 12.0               Pass: 100%/8   | Total:  4h 36m | Avg: 34m 34s | Max: 54m 01s | Hits: 248%/3704  
  🟩 12.5               Pass: 100%/2   | Total:  1h 41m | Avg: 50m 39s | Max: 51m 23s
  🟩 12.6               Pass: 100%/36  | Total: 17h 57m | Avg: 29m 55s | Max: 56m 10s | Hits: 274%/7408  
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 53m 15s | Avg: 26m 37s | Max: 27m 43s
  🟩 nvcc12.0           Pass: 100%/8   | Total:  4h 36m | Avg: 34m 34s | Max: 54m 01s | Hits: 248%/3704  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 41m | Avg: 50m 39s | Max: 51m 23s
  🟩 nvcc12.6           Pass: 100%/34  | Total: 17h 03m | Avg: 30m 06s | Max: 56m 10s | Hits: 274%/7408  
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 53m 15s | Avg: 26m 37s | Max: 27m 43s
  🟩 nvcc               Pass: 100%/44  | Total: 23h 21m | Avg: 31m 51s | Max: 56m 10s | Hits: 266%/11112 
🟩 cxx
  🟩 Clang9             Pass: 100%/4   | Total:  1h 57m | Avg: 29m 26s | Max: 33m 07s
  🟩 Clang10            Pass: 100%/1   | Total: 33m 21s | Avg: 33m 21s | Max: 33m 21s
  🟩 Clang11            Pass: 100%/1   | Total: 31m 12s | Avg: 31m 12s | Max: 31m 12s
  🟩 Clang12            Pass: 100%/1   | Total: 33m 06s | Avg: 33m 06s | Max: 33m 06s
  🟩 Clang13            Pass: 100%/1   | Total: 30m 41s | Avg: 30m 41s | Max: 30m 41s
  🟩 Clang14            Pass: 100%/1   | Total: 29m 14s | Avg: 29m 14s | Max: 29m 14s
  🟩 Clang15            Pass: 100%/1   | Total: 31m 56s | Avg: 31m 56s | Max: 31m 56s
  🟩 Clang16            Pass: 100%/1   | Total: 33m 28s | Avg: 33m 28s | Max: 33m 28s
  🟩 Clang17            Pass: 100%/1   | Total: 31m 12s | Avg: 31m 12s | Max: 31m 12s
  🟩 Clang18            Pass: 100%/7   | Total:  2h 43m | Avg: 23m 17s | Max: 32m 23s
  🟩 GCC7               Pass: 100%/4   | Total:  1h 53m | Avg: 28m 15s | Max: 32m 20s
  🟩 GCC8               Pass: 100%/1   | Total: 31m 45s | Avg: 31m 45s | Max: 31m 45s
  🟩 GCC9               Pass: 100%/3   | Total:  1h 35m | Avg: 31m 53s | Max: 35m 21s
  🟩 GCC10              Pass: 100%/1   | Total: 31m 20s | Avg: 31m 20s | Max: 31m 20s
  🟩 GCC11              Pass: 100%/1   | Total: 31m 21s | Avg: 31m 21s | Max: 31m 21s
  🟩 GCC12              Pass: 100%/1   | Total: 35m 50s | Avg: 35m 50s | Max: 35m 50s
  🟩 GCC13              Pass: 100%/8   | Total:  3h 01m | Avg: 22m 38s | Max: 37m 57s
  🟩 MSVC14.29          Pass: 100%/3   | Total:  2h 33m | Avg: 51m 06s | Max: 54m 01s | Hits: 248%/5556  
  🟩 MSVC14.39          Pass: 100%/3   | Total:  2h 25m | Avg: 48m 26s | Max: 56m 10s | Hits: 283%/5556  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 41m | Avg: 50m 39s | Max: 51m 23s
🟩 cxx_family
  🟩 Clang              Pass: 100%/19  | Total:  8h 54m | Avg: 28m 09s | Max: 33m 28s
  🟩 GCC                Pass: 100%/19  | Total:  8h 40m | Avg: 27m 22s | Max: 37m 57s
  🟩 MSVC               Pass: 100%/6   | Total:  4h 58m | Avg: 49m 46s | Max: 56m 10s | Hits: 266%/11112 
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 41m | Avg: 50m 39s | Max: 51m 23s
🟩 gpu
  🟩 v100               Pass: 100%/46  | Total:  1d 00h | Avg: 31m 37s | Max: 56m 10s | Hits: 266%/11112 
🟩 jobs
  🟩 Build              Pass: 100%/40  | Total: 22h 44m | Avg: 34m 07s | Max: 56m 10s | Hits: 246%/9260  
  🟩 TestCPU            Pass: 100%/3   | Total: 50m 53s | Avg: 16m 57s | Max: 35m 57s | Hits: 365%/1852  
  🟩 TestGPU            Pass: 100%/3   | Total: 39m 31s | Avg: 13m 10s | Max: 16m 06s
🟩 sm
  🟩 90a                Pass: 100%/1   | Total: 18m 36s | Avg: 18m 36s | Max: 18m 36s
🟩 std
  🟩 11                 Pass: 100%/5   | Total:  2h 08m | Avg: 25m 37s | Max: 27m 18s
  🟩 14                 Pass: 100%/3   | Total:  1h 52m | Avg: 37m 28s | Max: 48m 41s | Hits: 247%/1852  
  🟩 17                 Pass: 100%/13  | Total:  8h 18m | Avg: 38m 21s | Max: 54m 01s | Hits: 247%/5556  
  🟩 20                 Pass: 100%/23  | Total: 11h 18m | Avg: 29m 29s | Max: 56m 10s | Hits: 303%/3704

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 13s | Avg: 5m 06s | Max: 8m 04s

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 10m 13s | Avg:  5m 06s | Max:  8m 04s
🟩 ctk
  🟩 12.6               Pass: 100%/2   | Total: 10m 13s | Avg:  5m 06s | Max:  8m 04s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/2   | Total: 10m 13s | Avg:  5m 06s | Max:  8m 04s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 10m 13s | Avg:  5m 06s | Max:  8m 04s
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 10m 13s | Avg:  5m 06s | Max:  8m 04s
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 10m 13s | Avg:  5m 06s | Max:  8m 04s
🟩 gpu
  🟩 v100               Pass: 100%/2   | Total: 10m 13s | Avg:  5m 06s | Max:  8m 04s
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 09s | Avg:  2m 09s | Max:  2m 09s
  🟩 Test               Pass: 100%/1   | Total:  8m 04s | Avg:  8m 04s | Max:  8m 04s

🟩 python: Pass: 100%/1 | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s
🟩 ctk
  🟩 12.6               Pass: 100%/1   | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s
🟩 cudacxx
  🟩 nvcc12.6           Pass: 100%/1   | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 96)

#	Runner
69	`linux-amd64-cpu16`
11	`linux-amd64-gpu-v100-latest-1`
11	`windows-amd64-cpu16`
4	`linux-arm64-cpu16`
1	`linux-amd64-gpu-h100-latest-1-testing`

fbusato · 2025-01-10T01:28:14Z

could you please summarize the changes that helped to reduce the runtime?

elstehle · 2025-01-10T05:10:53Z

The PR is touching two tests:

The test for verifying that large segments are sorted correctly
The test for verifying that a large number of segments are sorted correctly

For (1), we switched from invoking std::stable_sort as a means of verifying that the items were sorted correctly to using histograms over the input items. This lowered per-test-instance run time from six minutes to six seconds for these tests.

For (2), (a) tests never finished and (b) segment generation was generating overlapping segments, which lead to test failures, because it creates a race on which of the segments pointing to the same output region would be sorted first. So, we switched from generating random inputs to generating a sequence of 0, 1, 2, ..., max_histo_size-1, 0, 1, 2. We use a fixed segment size over this input sequence, chunking it up, say, every 1000 items. We then use an analytical model to compute the histogram over the input values for a given segment and use that histogram to understand what the sorted output range of that segment would look like. E.g., if we know 0 is repeated four times in the first segment, we know the sorted sequence should start with 0 and beginning at offset four should continue with key 1. So on and so forth.

elstehle requested review from a team as code owners January 6, 2025 20:24

elstehle requested review from bernhardmgruber and wmaxey January 6, 2025 20:24

elstehle requested a review from fbusato January 9, 2025 07:36

elstehle force-pushed the enh/fix-large-seg-sort-testing-time branch from a5dc0db to 2228a87 Compare January 9, 2025 10:54

elstehle mentioned this pull request Jan 9, 2025

Adds support for large number of items and large number of segments to DeviceSegmentedSort #3308

Open

2 tasks

elstehle added 6 commits January 9, 2025 08:15

fixes segment offset generation

fa9b4ca

switches to analytical verification

e139188

switches to analytical verification for pairs

a35f915

fixes spelling

f18cb88

adds tests for large number of segments

d593e1a

fixes narrowing conversion in tests

b8cedc1

elstehle force-pushed the enh/fix-large-seg-sort-testing-time branch from 2228a87 to b8cedc1 Compare January 9, 2025 16:16

Improves DeviceSegmentedSort test run time for large number of items and segments #3246

Are you sure you want to change the base?

Improves DeviceSegmentedSort test run time for large number of items and segments #3246

Conversation

elstehle commented Jan 6, 2025 • edited Loading

Description

Checklist

github-actions bot commented Jan 6, 2025

🟩 cub: Pass: 100%/47 | Total: 13h 49m | Avg: 17m 39s | Max: 38m 22s | Hits: 94%/3132

🟩 thrust: Pass: 100%/46 | Total: 6h 31m | Avg: 8m 30s | Max: 42m 53s | Hits: 99%/9260

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 8m 50s | Avg: 4m 25s | Max: 6m 40s

🟩 python: Pass: 100%/1 | Total: 27m 07s | Avg: 27m 07s | Max: 27m 07s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 96)

github-actions bot commented Jan 7, 2025

🟩 cub: Pass: 100%/47 | Total: 6h 37m | Avg: 8m 26s | Max: 24m 19s | Hits: 99%/3132

🟩 thrust: Pass: 100%/46 | Total: 6h 33m | Avg: 8m 33s | Max: 28m 00s | Hits: 99%/9260

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 24s | Avg: 5m 12s | Max: 8m 17s

🟩 python: Pass: 100%/1 | Total: 35m 43s | Avg: 35m 43s | Max: 35m 43s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 96)

github-actions bot commented Jan 9, 2025

🟨 cub: Pass: 97%/45 | Total: 16h 40m | Avg: 22m 13s | Max: 1h 13m | Hits: 187%/2340

🟩 thrust: Pass: 100%/44 | Total: 10h 18m | Avg: 14m 03s | Max: 1h 16m | Hits: 151%/7408

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 13m 45s | Avg: 6m 52s | Max: 11m 46s

🟩 python: Pass: 100%/1 | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 92)

github-actions bot commented Jan 9, 2025

🟩 cub: Pass: 100%/45 | Total: 16h 54m | Avg: 22m 32s | Max: 1h 13m | Hits: 187%/2340

🟩 thrust: Pass: 100%/44 | Total: 10h 18m | Avg: 14m 03s | Max: 1h 16m | Hits: 151%/7408

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 13m 45s | Avg: 6m 52s | Max: 11m 46s

🟩 python: Pass: 100%/1 | Total: 27m 18s | Avg: 27m 18s | Max: 27m 18s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 92)

github-actions bot commented Jan 9, 2025

🟩 cub: Pass: 100%/47 | Total: 1d 15h | Avg: 50m 27s | Max: 1h 06m | Hits: 410%/3900

🟩 thrust: Pass: 100%/46 | Total: 1d 00h | Avg: 31m 37s | Max: 56m 10s | Hits: 266%/11112

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 13s | Avg: 5m 06s | Max: 8m 04s

🟩 python: Pass: 100%/1 | Total: 26m 09s | Avg: 26m 09s | Max: 26m 09s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 96)

fbusato commented Jan 10, 2025

elstehle commented Jan 10, 2025 • edited Loading

Improves `DeviceSegmentedSort` test run time for large number of items and segments #3246

Improves `DeviceSegmentedSort` test run time for large number of items and segments #3246

elstehle commented Jan 6, 2025 •

edited

Loading

elstehle commented Jan 10, 2025 •

edited

Loading