Skip to content

Commit

Permalink
Merge pull request #475 from ABCI-FJSE/fj20240529-00
Browse files Browse the repository at this point in the history
modified job-execution and system-updates about job limitation
  • Loading branch information
u-kawasaki authored Jun 7, 2024
2 parents 3908efb + 356f30d commit b932447
Show file tree
Hide file tree
Showing 12 changed files with 53 additions and 33 deletions.
4 changes: 2 additions & 2 deletions en/docs/containers.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,7 +18,7 @@ The followings are examples.
## Singularity

[Singularity](https://www.sylabs.io/singularity/) is available on the ABCI System.
Available version is SingularityPRO 3.11.
Available version is SingularityPRO 4.1.
To use Singularity, set up user environment by the `module` command.

```
Expand All @@ -27,7 +27,7 @@ To use Singularity, set up user environment by the `module` command.

More comprehensive user guide for Singularity will be found:

* [SingularityPRO User Guide](https://repo.sylabs.io/guides/pro-3.11/user-guide/)
* [SingularityPRO User Guide](https://repo.sylabs.io/guides/pro-4.1/user-guide/)

To run NGC-provided Docker images on ABCI by using Singularity: [NVIDIA NGC](tips/ngc.md)

Expand Down
2 changes: 1 addition & 1 deletion en/docs/img/abci_system_en.svg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
6 changes: 3 additions & 3 deletions en/docs/job-execution.md
Original file line number Diff line number Diff line change
Expand Up @@ -139,9 +139,9 @@ Jobs submitted to reserved nodes in the Reserved service are not included in the

| Resource type name | Maximum number of running jobs at the same time per system |
|:--|:--|
| rt_F | 1054 |
| rt_G.large, rt_C.large | 34 |
| rt_G.small, rt_C.small | 136 |
| rt_F | 918 |
| rt_G.large, rt_C.large | 170 |
| rt_G.small, rt_C.small | 680 |
| rt_AF | 115 |
| rt_AG.small | 40 |

Expand Down
16 changes: 8 additions & 8 deletions en/docs/storage.md
Original file line number Diff line number Diff line change
Expand Up @@ -54,7 +54,7 @@ $ lfs setstripe [options] <dirname | filename>
Example) Set a stripe pattern #1. (Creating a new file with a specific stripe pattern.)

```
[username@es1 work]$ lfs setstripe -S 1m -i 10 -c 4 stripe-file
[username@es1 work]$ lfs setstripe -S 1m -i 4 -c 4 stripe-file
[username@es1 work]$ ls
stripe-file
```
Expand All @@ -63,7 +63,7 @@ Example) Set a stripe pattern #2. (Setting up a stripe pattern to a directory.)

```
[username@es1 work]$ mkdir stripe-dir
[username@es1 work]$ lfs setstripe -S 1m -i 10 -c 4 stripe-dir
[username@es1 work]$ lfs setstripe -S 1m -i 4 -c 4 stripe-dir
```

#### How to Display File Striping Settings
Expand All @@ -83,20 +83,20 @@ lmm_stripe_count: 4
lmm_stripe_size: 1048576
lmm_pattern: 1
lmm_layout_gen: 0
lmm_stripe_offset: 10
lmm_stripe_offset: 4
obdidx objid objid group
10 3024641 0x2e2701 0
11 3026034 0x2e2c72 0
12 3021952 0x2e1c80 0
13 3019616 0x2e1360 0
4 3024641 0x2e2701 0
5 3026034 0x2e2c72 0
6 3021952 0x2e1c80 0
7 3019616 0x2e1360 0
```

Example) Display stripe settings #2. (Displaying the stripe pattern of a directory.)

```
[username@es1 work]$ lfs getstripe stripe-dir
stripe-dir
stripe_count: 4 stripe_size: 1048576 stripe_offset: 10
stripe_count: 4 stripe_size: 1048576 stripe_offset: 4
```

## Group Area
Expand Down
4 changes: 2 additions & 2 deletions en/docs/system-overview.md
Original file line number Diff line number Diff line change
Expand Up @@ -123,7 +123,7 @@ The ABCI system has five storage systems for storing large amounts of data used

| # | Storage System | Media | Usage |
|:--|:--|:--|:--|
| 1 | DDN SFA 14KX x1<br>DDN SS9012 Enclosure x5 | 7.68 TB SAS SSD x185 | Home area(/home), Application area |
| 1 | DDN ES400NVX2 x1 | 30.72 TB NVMe SSD x24 | Home area(/home), Application area |
| 2 | DDN ES7990X x3<br>DDN SS9012 Enclosure x6 | 18 TB NL-SAS HDD x801 | Group area(/groups) |
| 3 | DDN ES400NVX x3 | 7.68 TB NVMe HDD x69 | Fast data area(/bb) |
| 4 | DDN SFA 14KX x3<br>DDN SS8462 Enclosure x30 | 3.84 TB SAS SSD x216<br>12 TB NL-SAS HDD x2400 | Group area for specific purpose(/projects), Global scratch area(/scratch) |
Expand All @@ -133,7 +133,7 @@ Below is a list of shared file systems and ABCI Cloud Storage provided by the AB

| Usage | Mount point | Capacity | File system | Notes |
|:--|:--|:--|:--|:--|
| Home area | /home | 1.0 PB | Lustre | See [Home Area](storage.md#home-area) |
| Home area | /home | 0.5 PB | Lustre | See [Home Area](storage.md#home-area) |
| Group area | /groups | 10.8 PB | Lustre | See [Group Area](storage.md#group-area) |
| Group area for specific purpose | /projects | 21.6 PB | Lustre | Reserved for special purposes |
| ABCI Cloud Storage | | 13 PB max. | | See [ABCI Cloud Storage](abci-cloudstorage.md) |
Expand Down
10 changes: 10 additions & 0 deletions en/docs/system-updates.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,15 @@
# System Updates

## 2024-05-28

* In Spot and On-demand Service on Compute Node (V), the upper limits for the number of running jobs at the same time per system have been changed as follows.

| Resource type name | Limitations | Changed upper limit |
|:--|:--|:--|
| rt_F | Maximum number of running jobs at the same time per system | 918 |
| rt_G.large, rt_C.large | Maximum number of running jobs at the same time per system | 170 |
| rt_G.small, rt_C.small | Maximum number of running jobs at the same time per system | 680 |

## 2024-04-12

| Add / Update / Delete | Software | Version | Previous version |
Expand Down
4 changes: 2 additions & 2 deletions ja/docs/containers.md
Original file line number Diff line number Diff line change
Expand Up @@ -17,7 +17,7 @@ NGC CatalogのABCIでの使い方はTipsの[NVIDIA NGC](https://docs.abci.ai/ja/
## Singularity

ABCIシステムでは[Singularity](https://www.sylabs.io/singularity/)が利用可能です。
利用可能なバージョンはSingularityPRO 3.11となります
利用可能なバージョンはSingularityPRO 4.1となります
利用するためには事前に`module`コマンドを用いて利用環境を設定する必要があります。

```
Expand All @@ -26,7 +26,7 @@ ABCIシステムでは[Singularity](https://www.sylabs.io/singularity/)が利用

より網羅的なユーザガイドは、以下にあります。

* [SingularityPRO User Guide](https://repo.sylabs.io/guides/pro-3.11/user-guide/) (英文)
* [SingularityPRO User Guide](https://repo.sylabs.io/guides/pro-4.1/user-guide/) (英文)

Singularityを用いて、NGCが提供するDockerイメージをABCIで実行する方法は、[NVIDIA NGC](tips/ngc.md) で説明しています。

Expand Down
2 changes: 1 addition & 1 deletion ja/docs/img/abci_system_ja.svg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
6 changes: 3 additions & 3 deletions ja/docs/job-execution.md
Original file line number Diff line number Diff line change
Expand Up @@ -140,9 +140,9 @@ Reservedサービスで予約ノードに投入されたジョブはカウント

| 資源タイプ | システムあたりの同時実行ジョブ数の制限値 |
|:--|:--|
| rt_F | 1054 |
| rt_G.large, rt_C.large | 34 |
| rt_G.small, rt_C.small | 136 |
| rt_F | 918 |
| rt_G.large, rt_C.large | 170 |
| rt_G.small, rt_C.small | 680 |
| rt_AF | 115 |
| rt_AG.small | 40 |

Expand Down
18 changes: 9 additions & 9 deletions ja/docs/storage.md
Original file line number Diff line number Diff line change
Expand Up @@ -46,7 +46,7 @@ $ lfs setstripe [options] <dirname | filename>
| オプション | 説明 |
|:--:|:---|
| -S | ストライプサイズを設定。-S #k, -S #m, -S #gとすることで、サイズをKiB,MiB,GiBで設定可能。 |
| -i | ファイル書き込みを開始するOSTインデックスを指定。 -1とした場合、ファイル書き込みを開始するOSTはランダム。本システムでは、OSTインデックスは 0 から 17 を指定可能です。 |
| -i | ファイル書き込みを開始するOSTインデックスを指定。 -1とした場合、ファイル書き込みを開始するOSTはランダム。本システムでは、OSTインデックスは 0 から 7 を指定可能です。 |
| -c | ストライプカウントを設定。 -1とした場合、すべてのOSTに書き込みを実行。 |

!!! Tips
Expand All @@ -55,7 +55,7 @@ $ lfs setstripe [options] <dirname | filename>
例)ストライプパターンを持った新規ファイルの作成

```
[username@es1 work]$ lfs setstripe -S 1m -i 10 -c 4 stripe-file
[username@es1 work]$ lfs setstripe -S 1m -i 4 -c 4 stripe-file
[username@es1 work]$ ls
stripe-file
```
Expand All @@ -64,7 +64,7 @@ stripe-file

```
[username@es1 work]$ mkdir stripe-dir
[username@es1 work]$ lfs setstripe -S 1m -i 10 -c 4 stripe-dir
[username@es1 work]$ lfs setstripe -S 1m -i 4 -c 4 stripe-dir
```

#### ストライプ機能の表示方法 {#how-to-display-file-striping-settings}
Expand All @@ -84,20 +84,20 @@ lmm_stripe_count: 4
lmm_stripe_size: 1048576
lmm_pattern: 1
lmm_layout_gen: 0
lmm_stripe_offset: 10
lmm_stripe_offset: 4
obdidx objid objid group
10 3024641 0x2e2701 0
11 3026034 0x2e2c72 0
12 3021952 0x2e1c80 0
13 3019616 0x2e1360 0
4 3024641 0x2e2701 0
5 3026034 0x2e2c72 0
6 3021952 0x2e1c80 0
7 3019616 0x2e1360 0
```

例) ディレクトリの設定表示例

```
[username@es1 work]$ lfs getstripe stripe-dir
stripe-dir
stripe_count: 4 stripe_size: 1048576 stripe_offset: 10
stripe_count: 4 stripe_size: 1048576 stripe_offset: 4
```

## グループ領域 {#group-area}
Expand Down
4 changes: 2 additions & 2 deletions ja/docs/system-overview.md
Original file line number Diff line number Diff line change
Expand Up @@ -121,7 +121,7 @@ ABCIシステムは、人工知能やビッグデータ応用に用いる大容

| 構成 | ストレージシステム | メディア | 用途 |
|:--|:--|:--|:--|
| 1 | DDN SFA 14KX x1<br>DDN SS9012エンクロージャ x5 | 7.68 TB SAS SSD x185 | ホーム領域(/home)、アプリケーション領域 |
| 1 | DDN ES400NVX2 x1 | 30.72 TB NVMe SSD x24 | ホーム領域(/home)、アプリケーション領域 |
| 2 | DDN ES7990X x3<br>DDN SS9012エンクロージャ x6 | 18 TB NL-SAS HDD x801 | グループ領域(/groups) |
| 3 | DDN ES400NVX x3 | 7.68 TB NVMe HDD x69 | 高速データ領域(/bb) |
| 4 | DDN SFA 14KX x3<br>DDN SS8462エンクロージャ x30 | 3.84 TB SAS SSD x216<br>12 TB NL-SAS HDD x2400 | 特定グループ領域(/projects)、グローバルスクラッチ領域(/scratch) |
Expand All @@ -131,7 +131,7 @@ ABCIシステムは、人工知能やビッグデータ応用に用いる大容

| 用途 | マウントポイント | 容量 | ファイルシステム | 備考 |
|:--|:--|:--|:--|:--|
| ホーム領域 | /home | 1.0 PB | Lustre | [ホーム領域](storage.md#home-area)を参照 |
| ホーム領域 | /home | 0.5 PB | Lustre | [ホーム領域](storage.md#home-area)を参照 |
| グループ領域 | /groups | 10.8 PB | Lustre | [グループ領域](storage.md#group-area)を参照 |
| 特定グループ領域 | /projects | 21.6 PB | Lustre | 特定用途に予約済みの領域 |
| ABCIクラウドストレージ | | 最大13 PB | | [ABCIクラウドストレージ](abci-cloudstorage.md)を参照 |
Expand Down
10 changes: 10 additions & 0 deletions ja/docs/system-updates.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,15 @@
# システム更新履歴

## 2024-05-28

* 計算ノード(V)のSpotサービスとOn-demandサービスにおいて、システムあたりの同時実行ジョブ数の制限を以下の通り変更しました。

| 資源タイプ | 項目 | 変更後の上限値 |
|:--|:--|:--|
| rt_F | システムあたりの同時実行ジョブ数の制限値 | 918ジョブ |
| rt_G.large, rt_C.large | システムあたりの同時実行ジョブ数の制限値 | 170ジョブ |
| rt_G.small, rt_C.small | システムあたりの同時実行ジョブ数の制限値 | 680ジョブ |

## 2024-04-12

| Add / Update / Delete | Software | Version | Previous version |
Expand Down

0 comments on commit b932447

Please sign in to comment.