feat: support classification

lamalab-org · Nov 26, 2024 · 866a0e2 · 866a0e2
2 parents 3e0e8de + 2d5d901
commit 866a0e2
Show file tree

Hide file tree

Showing 69 changed files with 2,100 additions and 362 deletions.
diff --git a/conf/bandgap.yaml b/conf/bandgap.yaml
@@ -0,0 +1,33 @@
+
+
+hydra:
+  job:
+    name: bandgap
+  run:
+    dir: ${hydra:runtime.cwd}/outputs/${now:%Y-%m-%d}/${now:%H-%M-%S}
+  sweep:
+    dir: multirun/${now:%Y-%m-%d}/${now:%H-%M-%S}
+    subdir: ${hydra.job.override_dirname}
+
+  # launcher:
+  #   _target_: hydra_plugins.hydra_submitit_launcher.submitit_launcher.SlurmLauncher
+  #   submitit_folder: ${hydra.sweep.dir}/.submitit/%j
+  #   timeout_min: 3600
+  #   mem_gb: 160
+  #   nodes: 1
+  #   #gpus_per_task: 1
+  #   gres: gpu:1
+  #   #gpus_per_node: 2
+  #   name: ${hydra.job.name}
+  #   partition: 'gpu'
+  #   additional_parameters:
+  #     nodelist: 'gpu[008,013-017]'
+  #   tasks_per_node: 1
+
+defaults:
+- model: none
+# - override hydra/launcher: submitit_slurm
+
+runs:
+  - name: benchmark_run
+    tasks: [benchmark]
diff --git a/conf/benchmark.yaml b/conf/benchmark.yaml
@@ -1,24 +1,33 @@
-  hydra:
-    job:
-      name: benchmark
-    run:
-      dir: ${hydra:runtime.cwd}/outputs/${now:%Y-%m-%d}/${now:%H-%M-%S}
-    sweep:
-      dir: multirun/${now:%Y-%m-%d}/${now:%H-%M-%S}
-      subdir: ${hydra.job.override_dirname}
-
-
-
-  defaults:
-  - model: none
-
-
-
-  runs:
-
-
-    - name: benchmark_run
-      tasks: [benchmark]
-
 
 
+hydra:
+  job:
+    name: benchmark
+  run:
+    dir: ${hydra:runtime.cwd}/outputs/${now:%Y-%m-%d}/${now:%H-%M-%S}
+  sweep:
+    dir: multirun/${now:%Y-%m-%d}/${now:%H-%M-%S}
+    subdir: ${hydra.job.override_dirname}
+
+  # launcher:
+  #   _target_: hydra_plugins.hydra_submitit_launcher.submitit_launcher.SlurmLauncher
+  #   submitit_folder: ${hydra.sweep.dir}/.submitit/%j
+  #   timeout_min: 3600
+  #   mem_gb: 160
+  #   nodes: 1
+  #   #gpus_per_task: 1
+  #   gres: gpu:1
+  #   #gpus_per_node: 2
+  #   name: ${hydra.job.name}
+  #   partition: 'gpu'
+  #   additional_parameters:
+  #     nodelist: 'gpu[008,013-017]'
+  #   tasks_per_node: 1
+
+defaults:
+- model: none
+# - override hydra/launcher: submitit_slurm
+
+runs:
+  - name: benchmark_run
+    tasks: [benchmark]
diff --git a/conf/bg/atoms.yaml b/conf/bg/atoms.yaml
@@ -0,0 +1,19 @@
+# @package _global_
+model:
+  representation: atom_sequences
+  dataset: "bandgap"
+  dataset_type: matbench
+  special_num_token: False
+  checkpoint: n0w0f/MatText-atom-seq-2m
+  logging:
+    wandb_project: revision-bg
+
+  finetune:
+    model_name: revision-bg
+    context_length: 32
+    training_arguments:
+      per_device_train_batch_size: 1024
+    path:
+      pretrained_checkpoint: n0w0f/MatText-atom-seq-2m
+
+
diff --git a/conf/bg/atoms_params.yaml b/conf/bg/atoms_params.yaml
@@ -0,0 +1,17 @@
+# @package _global_
+model:
+  representation: atom_sequences_plusplus
+  dataset: "bandgap"
+  dataset_type: matbench
+  special_num_token: False
+  checkpoint: n0w0f/MatText-atom-seq-plusplus-2m
+  logging:
+    wandb_project: revision-bg
+
+  finetune:
+    model_name: revision-bg
+    context_length: 32
+    training_arguments:
+      per_device_train_batch_size: 1024
+
+
diff --git a/conf/bg/cifp1.yaml b/conf/bg/cifp1.yaml
@@ -0,0 +1,17 @@
+# @package _global_
+model:
+  representation: cif_p1
+  dataset: "bandgap"
+  dataset_type: matbench
+  special_num_token: False
+  checkpoint: n0w0f/MatText-cifp1-2m
+  logging:
+    wandb_project: revision-bg
+
+  finetune:
+    model_name: revision-bg
+    context_length: 1024
+    training_arguments:
+      per_device_train_batch_size: 128
+    path:
+      pretrained_checkpoint: n0w0f/MatText-cifp1-2m
diff --git a/conf/bg/cifpsym.yaml b/conf/bg/cifpsym.yaml
@@ -0,0 +1,17 @@
+# @package _global_
+model:
+  representation: cif_symmetrized
+  dataset: "bandgap"
+  dataset_type: matbench
+  special_num_token: False
+  checkpoint: n0w0f/MatText-cifsymmetrized-2m
+  logging:
+    wandb_project: revision-bg
+
+  finetune:
+    model_name: revision-bg
+    context_length: 1024
+    training_arguments:
+      per_device_train_batch_size: 64
+    path:
+      pretrained_checkpoint: n0w0f/MatText-cifsymmetrized-2m
diff --git a/conf/bg/composition.yaml b/conf/bg/composition.yaml
@@ -0,0 +1,17 @@
+# @package _global_
+model:
+  representation: composition
+  dataset: "bandgap"
+  dataset_type: matbench
+  special_num_token: False
+  checkpoint: n0w0f/MatText-composition-2m
+  logging:
+    wandb_project: revision-bg
+
+  finetune:
+    model_name: revision-bg
+    context_length: 32
+    training_arguments:
+      per_device_train_batch_size: 1024
+
+
diff --git a/conf/bg/crystal_llm.yaml b/conf/bg/crystal_llm.yaml
@@ -0,0 +1,16 @@
+# @package _global_
+model:
+  representation: crystal_text_llm
+  dataset: "bandgap"
+  dataset_type: matbench
+  special_num_token: False
+  checkpoint: /home/so87pot/n0w0f/structllm_ckpt/alpaca_ckpt/checkpoint-393000
+  logging:
+    wandb_project: revision-bg
+
+  finetune:
+    model_name: revision-bg
+    context_length: 512
+    training_arguments:
+      per_device_train_batch_size: 256
+
diff --git a/conf/bg/local_env.yaml b/conf/bg/local_env.yaml
@@ -0,0 +1,17 @@
+# @package _global_
+model:
+  representation: local_env
+  dataset: "bandgap"
+  dataset_type: matbench
+  special_num_token: False
+  checkpoint: /home/so87pot/n0w0f/structllm_ckpt/santiago_ckpt_rt/checkpoint-95000
+  logging:
+    wandb_project: revision-bg
+
+  finetune:
+    model_name: revision-bg
+    context_length: 512
+    training_arguments:
+      per_device_train_batch_size: 256
+    path:
+      pretrained_checkpoint: /home/so87pot/n0w0f/structllm_ckpt/santiago_ckpt_rt/checkpoint-95000
diff --git a/conf/bg/slices.yaml b/conf/bg/slices.yaml
@@ -0,0 +1,17 @@
+# @package _global_
+model:
+  representation: slices
+  dataset: "bandgap"
+  dataset_type: matbench
+  special_num_token: False
+  checkpoint: n0w0f/MatText-slices-2m
+  logging:
+    wandb_project: revision-bg
+
+  finetune:
+    model_name: revision-bg
+    context_length: 512
+    training_arguments:
+      per_device_train_batch_size: 256
+    path:
+      pretrained_checkpoint: n0w0f/MatText-slices-2m
diff --git a/conf/bg/zmatrix.yaml b/conf/bg/zmatrix.yaml
@@ -0,0 +1,17 @@
+# @package _global_
+model:
+  representation: zmatrix
+  dataset: "bandgap"
+  dataset_type: matbench
+  special_num_token: False
+  checkpoint: n0w0f/MatText-zmatrix-2m
+  logging:
+    wandb_project: revision-bg
+
+  finetune:
+    model_name: revision-bg
+    context_length: 512
+    training_arguments:
+      per_device_train_batch_size: 256
+    path:
+      pretrained_checkpoint: n0w0f/MatText-zmatrix-2m
diff --git a/conf/bg2m/atoms.yaml b/conf/bg2m/atoms.yaml
@@ -0,0 +1,13 @@
+# @package _global_
+model:
+  representation: atoms_params
+  logging:
+    wandb_project: 2m_intel_ft
+
+  finetune:
+    model_name: 2m_intel_ft
+    context_length: 32
+    training_arguments:
+      per_device_train_batch_size: 1024
+    path:
+      pretrained_checkpoint: /work/so87pot/mattext/megaloop/checkpoints/checkpoints/atoms_params_pt_30k_atoms/checkpoint-1000
diff --git a/conf/bg2m/atoms_params.yaml b/conf/bg2m/atoms_params.yaml
@@ -0,0 +1,13 @@
+# @package _global_
+model:
+  representation: atoms_params
+  logging:
+    wandb_project: 2m_intel_ft
+
+  finetune:
+    model_name: 2m_intel_ft
+    context_length: 32
+    training_arguments:
+      per_device_train_batch_size: 1024
+    path:
+      pretrained_checkpoint: /work/so87pot/mattext/megaloop/checkpoints/checkpoints/atoms_params_pt_30k_atoms/checkpoint-1000
diff --git a/conf/bg2m/cifp1.yaml b/conf/bg2m/cifp1.yaml
@@ -0,0 +1,13 @@
+# @package _global_
+model:
+  representation: cif_p1
+  logging:
+    wandb_project: 2m_intel_ft
+
+  finetune:
+    model_name: 2m_intel_ft
+    context_length: 1024
+    training_arguments:
+      per_device_train_batch_size: 32
+    path:
+      pretrained_checkpoint: /work/so87pot/mattext/megaloop2/checkpoints/checkpoints/cif_p1_pt_30k_rt_2/checkpoint-46000
diff --git a/conf/bg2m/cifsymmetrized.yaml b/conf/bg2m/cifsymmetrized.yaml
@@ -0,0 +1,13 @@
+# @package _global_
+model:
+  representation: cif_symmetrized
+  logging:
+    wandb_project: 2m_intel_ft
+
+  finetune:
+    model_name: 2m_intel_ft
+    context_length: 1024
+    training_arguments:
+      per_device_train_batch_size: 32
+    path:
+      pretrained_checkpoint: /work/so87pot/mattext/megaloop2/checkpoints/checkpoints/cif_symmetrized_pt_30k_rt/checkpoint-45000
diff --git a/conf/bg2m/composition.yaml b/conf/bg2m/composition.yaml
@@ -0,0 +1,13 @@
+# @package _global_
+model:
+  representation: composition
+  logging:
+    wandb_project: 2m_intel_ft
+
+  finetune:
+    model_name: 2m_intel_ft
+    context_length: 32
+    training_arguments:
+      per_device_train_batch_size: 1024
+    path:
+      pretrained_checkpoint: /work/so87pot/mattext/megaloop2/checkpoints/checkpoints/composition_pt_30k_rt/checkpoint-1000
diff --git a/conf/bg2m/crystal_llm.yaml b/conf/bg2m/crystal_llm.yaml
@@ -0,0 +1,13 @@
+# @package _global_
+model:
+  representation: crystal_llm_rep
+  logging:
+    wandb_project: 2m_intel_ft
+
+  finetune:
+    model_name: 2m_intel_ft
+    context_length: 512
+    training_arguments:
+      per_device_train_batch_size: 64
+    path:
+      pretrained_checkpoint: /work/so87pot/mattext/megaloop2/checkpoints/checkpoints/crystal_llm_rep_pt_30k_rt/checkpoint-11000
diff --git a/conf/bg2m/local_env.yaml b/conf/bg2m/local_env.yaml
@@ -0,0 +1,13 @@
+# @package _global_
+model:
+  representation: zmatrix
+  logging:
+    wandb_project: 2m_intel_ft
+
+  finetune:
+    model_name: 2m_intel_ft
+    context_length: 512
+    training_arguments:
+      per_device_train_batch_size: 64
+    path:
+      pretrained_checkpoint: /work/so87pot/mattext/megaloop/checkpoints/checkpoints/atoms_params_pt_30k_atoms/checkpoint-1000
diff --git a/conf/bg2m/slice.yaml b/conf/bg2m/slice.yaml
@@ -0,0 +1,13 @@
+# @package _global_
+model:
+  representation: slice
+  logging:
+    wandb_project: 2m_intel_ft
+
+  finetune:
+    model_name: 2m_intel_ft
+    context_length: 512
+    training_arguments:
+      per_device_train_batch_size: 64
+    path:
+      pretrained_checkpoint: /work/so87pot/mattext/megaloop2/checkpoints/checkpoints/slice_pt_30k_rt/checkpoint-23000
diff --git a/conf/bg2m/zmatrix.yaml b/conf/bg2m/zmatrix.yaml
@@ -0,0 +1,13 @@
+# @package _global_
+model:
+  representation: zmatrix
+  logging:
+    wandb_project: 2m_intel_ft
+
+  finetune:
+    model_name: 2m_intel_ft
+    context_length: 512
+    training_arguments:
+      per_device_train_batch_size: 64
+    path:
+      pretrained_checkpoint: /work/so87pot/mattext/megaloop/checkpoints/checkpoints/atoms_params_pt_30k_atoms/checkpoint-1000