COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 8KB message using MPI within an 8 processor LPAR node)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
Communication Library: MPI
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 2, both on the same node
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 247.84 6.37 38.6%
1 iter. 403.68 6.43 63.4%
10 iter. 487.72 6.38 75.9%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 211.72 7.42 32.4%
1 iter. 398.83 7.42 53.2%
10 iter. 397.95 7.54 69.7%
cache inv. w/overlap 215.13 8.01 35.5%
1 iter. w/overlap 461.96 8.04 58.8%
10 iter. w/overlap 413.47 8.04 65.9%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 198.55 7.42 36.0%
1 iter. 408.37 7.39 58.6%
10 iter. 414.37 7.42 71.8%
cache inv. w/overlap 240.23 8.08 24.4%
1 iter. w/overlap 410.28 8.09 79.0%
10 iter. w/overlap 407.90 8.01 79.8%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 207.88 8.61 43.7%
1 iter. 327.77 8.65 69.2%
10 iter. 388.20 8.60 62.4%
cache inv. w/overlap 222.93 9.35 50.9%
1 iter. w/overlap 354.02 9.00 69.2%
10 iter. w/overlap 402.67 9.27 62.9%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 232.82 10.14 28.8%
1 iter. 440.75 10.26 55.2%
10 iter. 538.14 10.08 66.2%
cache inv. w/overlap 270.78 8.28 27.4%
1 iter. w/overlap 608.32 8.21 61.0%
10 iter. w/overlap 628.16 7.91 60.7%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 219.43 11.22 30.1%
1 iter. 500.73 10.70 65.4%
10 iter. 473.67 11.01 63.6%
cache inv. w/overlap 281.77 9.27 31.9%
1 iter. w/overlap 602.06 9.41 69.2%
10 iter. w/overlap 598.98 9.11 66.6%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 235.99 8.73 41.6%
1 iter. 395.37 8.29 56.3%
10 iter. 388.90 8.61 69.2%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 211.17 14.36 37.0%
1 iter. 394.48 14.42 69.4%
10 iter. 414.97 14.32 72.5%
cache inv. w/overlap 218.38 14.64 39.0%
1 iter. w/overlap 384.72 14.34 67.4%
10 iter. w/overlap 402.96 14.41 70.9%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 220.33 14.64 39.4%
1 iter. 410.56 14.63 73.3%
10 iter. 395.39 14.79 71.4%
cache inv. w/overlap 212.23 15.50 40.2%
1 iter. w/overlap 345.46 15.46 65.2%
10 iter. w/overlap 394.81 15.17 73.1%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 200.16 15.74 38.5%
1 iter. 396.13 15.64 75.6%
10 iter. 386.29 15.79 74.5%
cache inv. w/overlap 210.92 15.92 58.2%
1 iter. w/overlap 348.99 15.39 66.5%
10 iter. w/overlap 422.37 15.60 80.4%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 222.05 13.62 36.9%
1 iter. 379.73 13.41 62.2%
10 iter. 416.98 13.65 69.5%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.3158e-02   1.2850e-05   1.25   0.68   0.59   1.46 
  16   6.6301e-03   1.2950e-05   2.47   0.67   0.60   1.45 
  32   3.2141e-03   1.2555e-05   5.10   0.73   0.63   1.56 
  64   1.7630e-03   1.3774e-05   9.29   0.62   0.51   1.36 
  128   8.8776e-04   1.3871e-05   18.46   0.61   0.45   1.32 
  256   4.5676e-04   1.4274e-05   35.87   0.64   0.66   1.25 
  512   2.6187e-04   1.6367e-05   62.57   0.59   0.57   1.21 
  1024   1.5659e-04   1.9573e-05   104.63   0.49   0.43   1.11 
  2048   1.0329e-04   2.5823e-05   158.62   0.36   0.37   0.82 
  4096   6.6107e-05   3.3053e-05   247.84   0.41   0.50   0.99 
  8192   6.5347e-05   6.5347e-05   250.72   0.10   0.11   0.23 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   6   3 
  64   0   1   2   6   3 
  128   0   2   1   3   6 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   2   3   1   6 
  2048   1   0   2   6   3 
  4096   0   6   3   2   1 
  8192   6   4   0   10   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   3 
  16    1   1   3 
  32    1   1   3 
  64    1   1   3 
  128    1   1   3 
  256    1   1   3 
  512    1   1   4 
  1024    1   1   4 
  2048    1   1   5 
  4096    1   1   4 
  8192    2   3   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.3105e-02   1.2798e-05   1.25   0.68   0.59   1.46 
  16   6.5225e-03   1.2739e-05   2.51   0.70   0.59   1.49 
  32   3.1890e-03   1.2457e-05   5.14   0.72   0.62   1.54 
  64   1.6321e-03   1.2751e-05   10.04   0.69   0.59   1.47 
  128   8.3100e-04   1.2984e-05   19.72   0.69   0.58   1.46 
  256   4.3951e-04   1.3735e-05   37.28   0.61   0.61   1.32 
  512   2.1919e-04   1.3699e-05   74.75   0.65   0.54   1.37 
  1024   1.2767e-04   1.5958e-05   128.33   0.51   0.37   1.26 
  2048   7.3027e-05   1.8257e-05   224.36   0.42   0.46   0.84 
  4096   4.0587e-05   2.0293e-05   403.68   0.39   0.29   0.91 
  8192   3.1107e-05   3.1107e-05   526.70   0.20   0.23   0.34 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   3   6 
  64   0   2   1   3   6 
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   3   1   6 
  1024   0   1   2   3   6 
  2048   1   2   0   3   6 
  4096   0   2   1   6   3 
  8192   4   0   10   8   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   3 
  16    1   1   3 
  32    1   1   3 
  64    1   1   3 
  128    1   1   3 
  256    1   1   3 
  512    1   1   3 
  1024    1   1   4 
  2048    1   3   4 
  4096    1   1   5 
  8192    1   1   8 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.3009e-02   1.2704e-05   1.26   0.69   0.59   1.48 
  16   6.4796e-03   1.2656e-05   2.53   0.70   0.61   1.48 
  32   3.1690e-03   1.2379e-05   5.17   0.73   0.63   1.54 
  64   1.6553e-03   1.2932e-05   9.90   0.68   0.57   1.45 
  128   8.2186e-04   1.2842e-05   19.94   0.71   0.60   1.47 
  256   4.1114e-04   1.2848e-05   39.85   0.73   0.67   1.49 
  512   2.1518e-04   1.3449e-05   76.14   0.70   0.63   1.45 
  1024   1.1967e-04   1.4959e-05   136.91   0.57   0.53   1.23 
  2048   6.4863e-05   1.6216e-05   252.60   0.54   0.51   1.17 
  4096   3.3593e-05   1.6797e-05   487.72   0.62   0.60   1.16 
  8192   3.1403e-05   3.1403e-05   521.74   0.24   0.25   0.38 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   3   6 
  16   0   2   1   3   6 
  32   0   2   1   3   6 
  64   0   2   1   3   6 
  128   0   2   1   3   6 
  256   0   2   1   3   6 
  512   0   2   1   3   6 
  1024   0   2   1   3   6 
  2048   0   2   1   6   3 
  4096   0   2   1   6   3 
  8192   4   5   10   8   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   3 
  16    1   1   3 
  32    1   1   3 
  64    1   1   3 
  128    1   1   3 
  256    1   1   3 
  512    1   1   3 
  1024    1   1   3 
  2048    1   1   3 
  4096    1   1   2 
  8192    1   2   5 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.3825e-02   1.3501e-05   1.19   0.59   0.37   1.35 
  16   7.0194e-03   1.3710e-05   2.33   0.57   0.34   1.30 
  32   3.4883e-03   1.3626e-05   4.70   0.59   0.35   1.32 
  64   1.8141e-03   1.4172e-05   9.03   0.56   0.34   1.25 
  128   9.3849e-04   1.4664e-05   17.46   0.56   0.32   1.26 
  256   4.7157e-04   1.4737e-05   34.74   0.59   0.37   1.22 
  512   2.7780e-04   1.7363e-05   58.98   0.47   0.34   1.04 
  1024   1.4947e-04   1.8683e-05   109.62   0.52   0.37   1.08 
  2048   1.1144e-04   2.7860e-05   147.02   0.26   0.14   0.67 
  4096   6.8000e-05   3.4000e-05   240.94   0.29   0.19   0.69 
  8192   5.5960e-05   5.5960e-05   292.78   0.23   0.25   0.41 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   4   6 
  16   0   2   4   1   6 
  32   0   2   1   4   6 
  64   0   2   4   1   6 
  128   0   2   1   4   6 
  256   0   2   1   4   6 
  512   0   2   4   1   6 
  1024   0   5   3   4   2 
  2048   0   2   5   1   3 
  4096   0   5   3   4   1 
  8192   4   5   0   2   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   4 
  32    1   1   3 
  64    1   1   4 
  128    1   1   4 
  256    1   1   2 
  512    1   1   5 
  1024    1   1   2 
  2048    1   2   7 
  4096    1   1   6 
  8192    1   2   6 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.3870e-02   1.3545e-05   1.18   0.57   0.36   1.28 
  16   6.6123e-03   1.2915e-05   2.48   0.64   0.40   1.40 
  32   3.2925e-03   1.2861e-05   4.98   0.66   0.44   1.42 
  64   1.7657e-03   1.3794e-05   9.28   0.55   0.33   1.23 
  128   8.3349e-04   1.3023e-05   19.66   0.67   0.42   1.46 
  256   4.5268e-04   1.4146e-05   36.19   0.56   0.35   1.25 
  512   2.2961e-04   1.4351e-05   71.35   0.56   0.29   1.31 
  1024   1.1761e-04   1.4702e-05   139.30   0.55   0.34   1.30 
  2048   7.3893e-05   1.8473e-05   221.73   0.37   0.25   0.94 
  4096   3.5747e-05   1.7873e-05   458.34   0.49   0.42   1.15 
  8192   2.5413e-05   2.5413e-05   644.70   0.53   0.56   0.87 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   4   6 
  16   0   2   1   4   6 
  32   0   2   1   4   6 
  64   0   1   4   2   6 
  128   0   2   4   1   5 
  256   0   1   4   2   3 
  512   0   2   4   1   5 
  1024   0   2   4   1   5 
  2048   0   2   4   1   3 
  4096   0   2   1   4   3 
  8192   4   5   7   1   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   3 
  32    1   1   2 
  64    1   1   4 
  128    1   1   1 
  256    1   1   4 
  512    1   1   4 
  1024    1   1   3 
  2048    1   4   6 
  4096    1   1   3 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.4171e-02   1.3839e-05   1.16   0.54   0.32   1.26 
  16   7.0565e-03   1.3782e-05   2.32   0.54   0.32   1.27 
  32   3.5643e-03   1.3923e-05   4.60   0.54   0.32   1.24 
  64   1.7929e-03   1.4007e-05   9.14   0.54   0.32   1.26 
  128   8.9322e-04   1.3957e-05   18.34   0.57   0.36   1.26 
  256   4.6477e-04   1.4524e-05   35.25   0.52   0.30   1.21 
  512   2.4298e-04   1.5186e-05   67.43   0.48   0.31   1.11 
  1024   1.2189e-04   1.5236e-05   134.41   0.53   0.34   1.15 
  2048   6.7463e-05   1.6866e-05   242.86   0.45   0.23   1.08 
  4096   3.9323e-05   1.9661e-05   416.66   0.36   0.21   0.91 
  8192   2.4840e-05   2.4840e-05   659.58   0.53   0.62   0.73 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   4   1   6 
  16   0   2   4   1   6 
  32   0   2   1   4   6 
  64   0   2   1   4   6 
  128   0   2   4   1   6 
  256   0   2   4   1   6 
  512   0   2   4   1   6 
  1024   0   2   4   1   6 
  2048   0   2   4   1   3 
  4096   0   2   4   1   5 
  8192   4   5   8   10   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   4 
  32    1   1   4 
  64    1   1   4 
  128    1   1   4 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   4 
  2048    1   1   7 
  4096    1   2   6 
  8192    1   1   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:21:53 EDT.
80896 accesses since 1/2/96.