sweepai · sweep-nightly · Oct 24, 2023 · Oct 24, 2023 · Oct 24, 2023
diff --git a/src/cnn.py b/src/cnn.py
@@ -0,0 +1,31 @@
+import torch.nn as nn
+
+
+class CNN(nn.Module):
+    def __init__(self):
+        super(CNN, self).__init__()
+        self.conv1 = nn.Conv2d(1, 32, kernel_size=5)
+        self.conv2 = nn.Conv2d(32, 64, kernel_size=5)
+        self.fc1 = nn.Linear(4 * 4 * 64, 1024)
+        self.fc2 = nn.Linear(1024, 10)
+
+    def forward(self, x):
+        x = nn.functional.relu(self.conv1(x))
+        x = nn.functional.max_pool2d(x, 2)
+        x = nn.functional.relu(self.conv2(x))
+        x = nn.functional.max_pool2d(x, 2)
+        x = x.view(-1, 4 * 4 * 64)
+        x = nn.functional.relu(self.fc1(x))
+        x = self.fc2(x)
+        return nn.functional.log_softmax(x, dim=1)
+
+
+def train_model(model, dataloader, criterion, optimizer, epochs=3):
+    for _epoch in range(epochs):
+        for images, labels in dataloader:
+            optimizer.zero_grad()
+            output = model(images)
+            loss = criterion(output, labels)
+            loss.backward()
+            optimizer.step()
+    return model
diff --git a/src/main.py b/src/main.py
@@ -5,6 +5,7 @@
 from torchvision import datasets, transforms
 from torch.utils.data import DataLoader
 import numpy as np
+from cnn import CNN, train_model
 
 # Step 1: Load MNIST Data and Preprocess
 transform = transforms.Compose([
@@ -31,18 +32,12 @@ def forward(self, x):
         return nn.functional.log_softmax(x, dim=1)
 
 # Step 3: Train the Model
-model = Net()
+model = CNN()
 optimizer = optim.SGD(model.parameters(), lr=0.01)
-criterion = nn.NLLLoss()
+criterion = nn.CrossEntropyLoss()
 
 # Training loop
 epochs = 3
-for epoch in range(epochs):
-    for images, labels in trainloader:
-        optimizer.zero_grad()
-        output = model(images)
-        loss = criterion(output, labels)
-        loss.backward()
-        optimizer.step()
+model = train_model(model, trainloader, criterion, optimizer, epochs)
 
 torch.save(model.state_dict(), "mnist_model.pth")