-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathncopy_8.13(trible_loop).ys
104 lines (84 loc) · 3.06 KB
/
ncopy_8.13(trible_loop).ys
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
# Author:李一凡 [email protected]
# 优化思路1:将原来的“先把常数移到寄存器中再做运算”的方法改成使用iaddq实现,减少冗余;(13.70)
# 优化思路2:将Always Taken的分支预测方法改成BTFNT, 提高预测准确性。不过由于测试程序中分支并不多,所以这条方法没有很大改进;(13.63)
# 优化点:Y86-64处理器默认寄存器存储的是0,所以一开始的那个异或是没必要的;(13.56)
# 优化点:在mrmovq和rmmovq之间插入无关痛痒的%rdi+=8,因为后一个mov在前一个访存之后才能接收到数据转发,而这造成了一个阶段的暂停。把第一遍改漏的subq也换成iaddq;(11.56)
# 优化点:每次对len减一的时候总是andq判断一下再跳转,实际上跳转之前只要没有其他运算就可以了;(10.56)
# 优化思路3:按len-=2展开循环。一开始先把len-2,判断有没有资格进入设计出来的Loop_double。每次从Loop_double出来都要先-2,判断有没有再次进入Loop_double的资格。
# 每次发现没有进入的资格就直接跳到Once 里面。由于%rdx比2小但是每次只是减去2,所以这个部分会判断%rdx是0(直接ret比jmp Done的CPE小0.01)还是1(按照Once中的语句再ncopy一次);(8.73)
#/* $begin ncopy-ys */
##################################################################
# ncopy.ys - Copy a src block of len words to dst.
# Return the number of positive words (>0) contained in src.
#
# Include your name and ID here.
#
# Describe how and why you modified the baseline code.
#
##################################################################
# Do not modify this portion
# Function prologue.
# %rdi = src, %rsi = dst, %rdx = len
ncopy:
##################################################################
# You can modify this portion
# Loop header
# xorq %rax,%rax # count = 0;
iaddq $-3, %rdx
jl Last
Loop_trible:
mrmovq (%rdi), %r10 # read val from src...
mrmovq 8(%rdi), %r11
rmmovq %r10, (%rsi) # ...and store it to dst
andq %r10, %r10 # val <= 0?
jle L1 # if so, goto L1 (Across iaddq):
iaddq $1, %rax # irmovq $1, %r10
# addq %r10, %rax # count++
L1:
mrmovq 16(%rdi), %r10
rmmovq %r11, 8(%rsi)
andq %r11, %r11
jle L2
iaddq $1, %rax
L2:
rmmovq %r10, 16(%rsi)
andq %r10, %r10
jle L3
iaddq $1, %rax
L3:
iaddq $24, %rdi # src += 3
iaddq $24, %rsi # dst += 3
iaddq $-3, %rdx
jge Loop_trible # if %rdx >= 3, goto Loop:
Last:
iaddq $2, %rdx
jl Done
jg Loop_twice
mrmovq (%rdi), %r10
rmmovq %r10, (%rsi)
andq %r10, %r10
jle Done
iaddq $1, %rax
ret
Loop_twice:
mrmovq (%rdi), %r10
mrmovq 8(%rdi), %r11
rmmovq %r10,(%rsi)
andq %r10, %r10
jle Second
iaddq $1, %rax
Second:
rmmovq %r11, 8(%rsi)
andq %r11, %r11
jle Done
iaddq $1, %rax
jle Done
##################################################################
# Do not modify the following section of code
# Function epilogue.
Done:
ret
##################################################################
# Keep the following label at the end of your function
End:
#/* $end ncopy-ys */