COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(unordered swap of 2MB message using MPI within a node)

(performance measured per processor when all processors in node communicating with neighboring processor)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
SWAP size: 262144 REAL*8 floating point values each direction
Message size: Largest - 262144 REAL*8 floating point values
Smallest - 256 REAL*8 floating point values
Processors: i and i+1, i=0,2,4,...,30
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 511.21 -2.17 67.6%
1 iter. 549.04 -1.93 69.1%
10 iter.1584.72 -2.24 97.6%
cache inv. w/overlap 511.14 -2.04 67.1%
1 iter. w/overlap 561.26 -2.24 71.6%
10 iter. w/overlap1583.47 -2.05 96.2%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 524.83 -2.06 66.1%
1 iter. 568.09 -1.90 68.0%
10 iter.1565.91 -4.64 116.4%
cache inv. w/overlap 518.39 -2.07 65.6%
1 iter. w/overlap 558.24 -2.60 71.2%
10 iter. w/overlap1581.09 -4.70 117.8%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 517.03 -8.94 105.2%
1 iter. 560.81 -8.26 104.9%
10 iter.1299.84 -0.89 85.5%
cache inv. w/overlap 524.89 -6.24 92.0%
1 iter. w/overlap 562.36 -6.26 94.6%
10 iter. w/overlap1559.74 -1.21 90.5%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 515.76 18.08 9.5%
1 iter. 554.59 18.03 7.8%
10 iter.1590.55 18.95 62.2%
cache inv. w/overlap 516.29 10.82 8.9%
1 iter. w/overlap 569.77 10.05 3.3%
10 iter. w/overlap1842.60 10.24 67.4%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 514.42 21.51 10.7%
1 iter. 565.43 21.36 7.9%
10 iter.1561.82 23.62 61.4%
cache inv. w/overlap 518.27 12.74 8.2%
1 iter. w/overlap 561.41 12.51 6.4%
10 iter. w/overlap1788.39 13.02 66.3%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 517.58 -1.45 62.4%
1 iter. 557.53 -1.36 64.5%
10 iter.1589.39 -5.65 127.4%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 517.82 31.81 25.8%
1 iter. 563.22 31.30 22.5%
10 iter.1581.62 26.35 62.4%
cache inv. w/overlap 511.92 31.00 25.2%
1 iter. w/overlap 566.82 30.72 21.5%
10 iter. w/overlap1572.07 25.92 61.8%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 512.34 29.42 26.8%
1 iter. 571.31 29.55 24.9%
10 iter.1552.56 24.62 62.8%
cache inv. w/overlap 512.28 29.45 26.3%
1 iter. w/overlap 561.71 28.69 23.5%
10 iter. w/overlap1574.44 25.03 63.0%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 520.26 28.18 23.3%
1 iter. 570.03 27.60 24.3%
10 iter.1317.78 28.62 57.9%
cache inv. w/overlap 512.19 25.98 21.3%
1 iter. w/overlap 565.94 25.87 23.9%
10 iter. w/overlap1579.06 26.73 64.7%


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   1.7342e-02   1.6935e-05   241.86   0.51   0.46   1.25 
  4096   1.6042e-02   3.1332e-05   261.46   0.22   0.15   0.54 
  8192   1.1650e-02   4.5508e-05   360.03   0.17   0.07   0.51 
  16384   9.8310e-03   7.6804e-05   426.64   0.12   0.03   0.46 
  32768   8.9237e-03   1.3943e-04   470.02   0.11   0.01   0.44 
  65536   8.4593e-03   2.6435e-04   495.82   0.12   0.11   0.27 
  131072   8.2648e-03   5.1655e-04   507.49   0.08   0.09   0.17 
  262144   8.3499e-03   1.0437e-03   502.32   0.04   0.01   0.12 
  524288   8.1391e-03   2.0348e-03   515.33   0.04   0.02   0.11 
  1048576   8.1322e-03   4.0661e-03   515.76   0.02   0.01   0.05 
  2097152   8.2949e-03   8.2949e-03   505.65   0.01   0.01   0.03 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   2   6   1   3   4 
  4096   4   5   8   6   2 
  8192   4   6   5   2   8 
  16384   4   2   5   6   8 
  32768   2   6   8   5   4 
  65536   5   1   7   4   6 
  131072   1   4   5   7   8 
  262144   1   4   7   6   5 
  524288   2   5   1   4   7 
  1048576   4   5   8   1   2 
  2097152   7   8   6   3   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   2   4 
  4096    1   1   7 
  8192    1   1   7 
  16384    2   7   7 
  32768    4   7   7 
  65536    2   4   7 
  131072    1   4   9 
  262144    4   7   9 
  524288    2   6   9 
  1048576    4   9   9 
  2097152    5   9   9 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   1.6995e-02   1.6597e-05   246.80   0.51   0.46   1.24 
  4096   1.5570e-02   3.0410e-05   269.38   0.23   0.16   0.55 
  8192   1.1399e-02   4.4527e-05   367.96   0.15   0.05   0.49 
  16384   9.4137e-03   7.3545e-05   445.55   0.12   0.02   0.48 
  32768   8.2705e-03   1.2923e-04   507.14   0.12   0.04   0.46 
  65536   7.8868e-03   2.4646e-04   531.81   0.11   0.01   0.30 
  131072   7.6771e-03   4.7982e-04   546.34   0.08   0.10   0.19 
  262144   7.5973e-03   9.4966e-04   552.08   0.05   0.02   0.13 
  524288   7.5697e-03   1.8924e-03   554.09   0.03   0.02   0.08 
  1048576   7.5430e-03   3.7715e-03   556.05   0.02   0.01   0.04 
  2097152   7.2111e-03   7.2111e-03   581.64   0.03   0.02   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   2   6   1   3   4 
  4096   4   5   2   6   8 
  8192   4   6   8   5   2 
  16384   4   6   5   8   2 
  32768   4   6   8   2   7 
  65536   4   5   8   1   7 
  131072   5   7   1   4   2 
  262144   4   7   5   2   1 
  524288   5   7   1   2   4 
  1048576   5   4   2   7   1 
  2097152   9   8   6   5   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   2   4 
  4096    1   1   7 
  8192    1   5   7 
  16384    2   7   7 
  32768    2   7   7 
  65536    2   5   7 
  131072    2   4   9 
  262144    2   6   9 
  524288    2   7   9 
  1048576    3   9   9 
  2097152    1   7   9 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   1.1483e-02   1.1214e-05   365.27   0.82   0.79   1.70 
  4096   1.0870e-02   2.1229e-05   385.88   0.35   0.39   0.51 
  8192   6.1826e-03   2.4151e-05   678.40   0.34   0.32   0.58 
  16384   3.7808e-03   2.9538e-05   1109.36   0.27   0.18   0.64 
  32768   2.7851e-03   4.3517e-05   1505.99   0.21   0.10   0.62 
  65536   2.6370e-03   8.2407e-05   1590.55   0.08   0.02   0.33 
  131072   3.1781e-03   1.9863e-04   1319.75   0.01   0.01   0.02 
  262144   3.9796e-03   4.9746e-04   1053.94   0.08   0.09   0.11 
  524288   5.8487e-03   1.4622e-03   717.14   0.06   0.08   0.09 
  1048576   6.9920e-03   3.4960e-03   599.87   0.02   0.02   0.06 
  2097152   7.0364e-03   7.0364e-03   596.09   0.03   0.02   0.08 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   6   2   1   3   4 
  4096   4   5   6   8   2 
  8192   4   5   6   2   8 
  16384   4   5   6   2   8 
  32768   4   5   6   2   8 
  65536   4   6   1   7   2 
  131072   2   9   5   4   1 
  262144   9   3   6   1   2 
  524288   3   9   6   2   8 
  1048576   4   7   1   5   2 
  2097152   5   4   7   1   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   2 
  4096    1   1   2 
  8192    1   1   2 
  16384    1   1   5 
  32768    1   1   7 
  65536    4   7   7 
  131072    5   9   9 
  262144    2   2   9 
  524288    2   2   9 
  1048576    4   7   9 
  2097152    4   7   9 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   1.7353e-02   1.6946e-05   241.70   0.39   0.15   1.10 
  4096   1.2550e-02   2.4512e-05   334.21   0.48   0.47   0.85 
  8192   1.0146e-02   3.9634e-05   413.38   0.29   0.23   0.69 
  16384   9.0989e-03   7.1085e-05   460.97   0.18   0.10   0.55 
  32768   8.6677e-03   1.3543e-04   483.90   0.13   0.05   0.45 
  65536   8.5049e-03   2.6578e-04   493.16   0.08   0.03   0.23 
  131072   8.3801e-03   5.2375e-04   500.51   0.06   0.06   0.14 
  262144   8.2878e-03   1.0360e-03   506.08   0.04   0.03   0.11 
  524288   8.1980e-03   2.0495e-03   511.62   0.03   0.02   0.06 
  1048576   8.1376e-03   4.0688e-03   515.42   0.01   0.01   0.05 
  2097152   8.1902e-03   8.1902e-03   512.11   0.02   0.02   0.04 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   2   6   4   1   3 
  4096   4   5   6   2   8 
  8192   4   5   6   2   8 
  16384   4   5   6   8   2 
  32768   4   2   8   6   1 
  65536   2   4   1   7   5 
  131072   5   4   1   7   8 
  262144   4   7   5   1   2 
  524288   7   5   4   6   1 
  1048576   5   4   3   7   1 
  2097152   4   3   8   5   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   3   6 
  4096    1   1   2 
  8192    1   2   5 
  16384    1   2   7 
  32768    1   4   7 
  65536    2   5   9 
  131072    3   4   9 
  262144    2   7   9 
  524288    2   7   9 
  1048576    5   9   9 
  2097152    2   9   9 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   1.6859e-02   1.6464e-05   248.79   0.40   0.15   1.12 
  4096   1.2106e-02   2.3644e-05   346.47   0.50   0.50   0.88 
  8192   9.6481e-03   3.7688e-05   434.73   0.31   0.24   0.70 
  16384   8.5886e-03   6.7098e-05   488.36   0.19   0.11   0.57 
  32768   8.0414e-03   1.2565e-04   521.59   0.14   0.06   0.49 
  65536   7.7504e-03   2.4220e-04   541.17   0.11   0.04   0.28 
  131072   7.5043e-03   4.6902e-04   558.92   0.09   0.12   0.19 
  262144   7.5821e-03   9.4776e-04   553.18   0.05   0.03   0.13 
  524288   7.4316e-03   1.8579e-03   564.39   0.03   0.03   0.08 
  1048576   7.3614e-03   3.6807e-03   569.77   0.02   0.02   0.04 
  2097152   7.1910e-03   7.1910e-03   583.27   0.03   0.03   0.10 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   2   6   4   1   5 
  4096   4   5   6   8   2 
  8192   4   5   6   2   8 
  16384   4   5   6   8   2 
  32768   4   8   2   6   7 
  65536   4   6   2   1   7 
  131072   4   5   7   1   8 
  262144   4   5   1   7   2 
  524288   4   5   2   7   1 
  1048576   4   3   1   5   6 
  2097152   9   5   6   4   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    2   3   6 
  4096    1   1   2 
  8192    1   1   5 
  16384    1   2   7 
  32768    1   4   7 
  65536    1   5   7 
  131072    1   4   9 
  262144    2   6   9 
  524288    2   7   9 
  1048576    1   9   9 
  2097152    2   7   9 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   1.1618e-02   1.1345e-05   361.03   0.59   0.31   1.54 
  4096   7.1995e-03   1.4061e-05   582.58   0.88   1.04   1.20 
  8192   4.3900e-03   1.7148e-05   955.42   0.74   0.85   1.05 
  16384   2.9354e-03   2.2933e-05   1428.87   0.47   0.55   0.68 
  32768   2.3317e-03   3.6433e-05   1798.82   0.28   0.33   0.40 
  65536   2.2763e-03   7.1134e-05   1842.60   0.13   0.17   0.18 
  131072   2.9444e-03   1.8402e-04   1424.50   0.06   0.08   0.08 
  262144   4.1794e-03   5.2242e-04   1003.57   0.02   0.01   0.04 
  524288   6.2186e-03   1.5547e-03   674.48   0.01   0.01   0.02 
  1048576   6.9059e-03   3.4530e-03   607.35   0.03   0.04   0.05 
  2097152   6.9902e-03   6.9902e-03   600.03   0.03   0.03   0.06 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   6   2   4   1   5 
  4096   4   5   6   2   8 
  8192   4   5   6   2   8 
  16384   4   5   6   8   2 
  32768   4   5   6   2   8 
  65536   4   5   6   1   2 
  131072   4   5   6   2   7 
  262144   9   4   5   3   2 
  524288   4   9   2   5   3 
  1048576   4   5   7   1   9 
  2097152   4   5   7   1   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   2   4 
  4096    1   1   2 
  8192    1   1   2 
  16384    1   1   2 
  32768    1   1   2 
  65536    1   2   9 
  131072    2   2   9 
  262144    4   9   9 
  524288    5   9   9 
  1048576    4   9   9 
  2097152    3   7   9 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:20:13 EDT.
82316 accesses since 1/2/96.