COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 2MB message using MPI within a node)

(performance measured per processor when all processors in node communicating with a "distant" processor)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
SWAP size: 262144 REAL*8 floating point values each direction
Message size: Largest - 262144 REAL*8 floating point values
Smallest - 256 REAL*8 floating point values
Processors: i and i+16, i=0,...,15
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 435.69 -2.23 82.0%
1 iter. 478.97 -2.28 85.1%
10 iter. 669.63 -2.17 90.9%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 437.80 -0.58 72.7%
1 iter. 485.12 -0.67 75.8%
10 iter. 657.01 -1.00 80.9%
cache inv. w/overlap 430.32 -0.10 68.9%
1 iter. w/overlap 477.17 0.23 69.6%
10 iter. w/overlap 655.79 -0.35 74.8%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 435.85 -1.21 76.1%
1 iter. 481.33 -1.23 78.8%
10 iter. 659.62 -1.41 84.1%
cache inv. w/overlap 432.04 -0.92 73.9%
1 iter. w/overlap 473.06 -0.66 74.4%
10 iter. w/overlap 657.13 -0.94 79.7%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 430.54 -0.12 70.6%
1 iter. 475.50 0.11 71.6%
10 iter. 653.01 -0.33 76.4%
cache inv. w/overlap 430.88 0.67 67.4%
1 iter. w/overlap 478.86 0.77 69.2%
10 iter. w/overlap 657.89 0.55 70.9%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 436.80 11.38 25.7%
1 iter. 476.14 11.71 26.3%
10 iter. 682.31 10.72 31.6%
cache inv. w/overlap 432.31 8.98 26.7%
1 iter. w/overlap 481.26 8.86 28.8%
10 iter. w/overlap 701.60 8.80 33.4%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 439.18 12.22 25.3%
1 iter. 474.20 12.35 27.1%
10 iter. 676.18 11.56 30.2%
cache inv. w/overlap 434.58 9.99 25.3%
1 iter. w/overlap 480.19 9.82 28.3%
10 iter. w/overlap 692.73 9.75 32.4%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 435.94 -0.41 72.1%
1 iter. 483.76 0.34 70.6%
10 iter. 656.82 -0.46 77.3%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 431.41 19.52 21.1%
1 iter. 478.06 19.88 23.6%
10 iter. 656.73 19.39 28.1%
cache inv. w/overlap 436.41 18.97 23.1%
1 iter. w/overlap 475.98 18.94 23.4%
10 iter. w/overlap 660.41 18.53 28.9%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 439.24 18.68 21.9%
1 iter. 479.90 19.00 24.0%
10 iter. 657.56 18.90 28.4%
cache inv. w/overlap 440.90 18.30 23.0%
1 iter. w/overlap 473.24 18.49 23.0%
10 iter. w/overlap 653.70 18.20 27.6%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 429.84 21.02 19.6%
1 iter. 481.06 20.54 22.6%
10 iter. 656.93 20.45 28.1%
cache inv. w/overlap 431.27 19.48 21.8%
1 iter. w/overlap 474.23 19.40 23.9%
10 iter. w/overlap 654.20 19.56 27.9%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 433.25 18.68 21.4%
1 iter. 474.76 18.55 23.0%
10 iter. 668.99 17.79 29.3%


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.8123e-02   2.7464e-05   149.14   0.39   0.24   0.91 
  4096   2.3245e-02   4.5400e-05   180.44   0.29   0.34   0.40 
  8192   1.8157e-02   7.0927e-05   231.00   0.17   0.20   0.23 
  16384   1.5789e-02   1.2335e-04   265.65   0.08   0.09   0.12 
  32768   1.4881e-02   2.3252e-04   281.86   0.03   0.03   0.04 
  65536   1.2719e-02   3.9747e-04   329.77   0.03   0.03   0.05 
  131072   1.1725e-02   7.3282e-04   357.72   0.01   0.01   0.02 
  262144   1.0685e-02   1.3356e-03   392.54   0.02   0.02   0.03 
  524288   1.0171e-02   2.5427e-03   412.39   0.01   0.01   0.03 
  1048576   9.7871e-03   4.8935e-03   428.56   0.01   0.01   0.02 
  2097152   9.7614e-03   9.7614e-03   429.68   0.01   0.02   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   6   3 
  4096   4   5   10   0   8 
  8192   4   5   0   10   2 
  16384   4   5   0   10   2 
  32768   4   5   0   8   2 
  65536   4   5   0   6   1 
  131072   0   7   4   2   8 
  262144   0   10   3   4   8 
  524288   4   5   6   9   2 
  1048576   7   2   3   8   0 
  2097152   8   10   4   0   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   6 
  4096    1   1   2 
  8192    1   2   11 
  16384    1   2   11 
  32768    2   11   11 
  65536    1   10   11 
  131072    6   11   11 
  262144    1   11   11 
  524288    5   11   11 
  1048576    6   11   11 
  2097152    4   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.7572e-02   2.6926e-05   152.12   0.39   0.25   0.90 
  4096   2.2351e-02   4.3654e-05   187.66   0.30   0.36   0.41 
  8192   1.7467e-02   6.8229e-05   240.13   0.16   0.19   0.22 
  16384   1.5109e-02   1.1804e-04   277.60   0.08   0.09   0.11 
  32768   1.3978e-02   2.1841e-04   300.06   0.04   0.05   0.06 
  65536   1.2153e-02   3.7978e-04   345.12   0.02   0.02   0.04 
  131072   1.0960e-02   6.8497e-04   382.71   0.02   0.02   0.02 
  262144   1.0006e-02   1.2508e-03   419.17   0.02   0.02   0.03 
  524288   9.4197e-03   2.3549e-03   445.27   0.01   0.01   0.02 
  1048576   8.9639e-03   4.4820e-03   467.91   0.01   0.01   0.02 
  2097152   8.5121e-03   8.5121e-03   492.75   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   6   3 
  4096   4   5   10   0   8 
  8192   4   5   10   0   8 
  16384   4   5   0   10   2 
  32768   4   5   10   0   9 
  65536   4   5   0   10   1 
  131072   4   6   1   7   8 
  262144   4   7   6   3   9 
  524288   4   6   0   8   1 
  1048576   5   10   7   0   9 
  2097152   10   5   8   9   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   6 
  4096    1   1   2 
  8192    1   2   11 
  16384    1   2   11 
  32768    1   5   11 
  65536    3   11   11 
  131072    1   11   11 
  262144    1   11   11 
  524288    6   11   11 
  1048576    6   11   11 
  2097152    4   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   1.9944e-02   1.9477e-05   210.30   0.55   0.31   1.28 
  4096   1.5169e-02   2.9627e-05   276.51   0.46   0.53   0.62 
  8192   1.0134e-02   3.9584e-05   413.90   0.30   0.35   0.43 
  16384   7.5124e-03   5.8691e-05   558.32   0.19   0.23   0.27 
  32768   6.5244e-03   1.0194e-04   642.86   0.09   0.11   0.13 
  65536   6.1472e-03   1.9210e-04   682.31   0.03   0.04   0.04 
  131072   7.2370e-03   4.5231e-04   579.56   0.01   0.02   0.03 
  262144   7.8425e-03   9.8031e-04   534.82   0.01   0.00   0.01 
  524288   8.9533e-03   2.2383e-03   468.46   0.01   0.01   0.02 
  1048576   8.9093e-03   4.4546e-03   470.78   0.01   0.01   0.01 
  2097152   8.6511e-03   8.6511e-03   484.83   0.01   0.01   0.01 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   6   3 
  4096   4   5   0   10   8 
  8192   4   5   0   10   2 
  16384   4   5   0   10   2 
  32768   4   5   0   10   2 
  65536   4   5   0   10   2 
  131072   0   10   4   6   5 
  262144   10   4   6   7   0 
  524288   0   2   5   10   7 
  1048576   0   5   6   2   3 
  2097152   1   4   6   2   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   5 
  4096    1   1   2 
  8192    1   2   2 
  16384    1   2   9 
  32768    1   2   11 
  65536    2   11   11 
  131072    3   11   11 
  262144    9   11   11 
  524288    6   11   11 
  1048576    10   11   11 
  2097152    11   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.7754e-02   2.7104e-05   151.12   0.36   0.18   0.86 
  4096   2.1630e-02   4.2247e-05   193.91   0.36   0.42   0.48 
  8192   1.7593e-02   6.8724e-05   238.40   0.19   0.22   0.26 
  16384   1.5680e-02   1.2250e-04   267.49   0.09   0.11   0.13 
  32768   1.4632e-02   2.2863e-04   286.65   0.05   0.05   0.07 
  65536   1.2819e-02   4.0061e-04   327.18   0.02   0.03   0.03 
  131072   1.1812e-02   7.3822e-04   355.10   0.01   0.01   0.02 
  262144   1.0792e-02   1.3490e-03   388.65   0.01   0.02   0.02 
  524288   1.0247e-02   2.5616e-03   409.34   0.01   0.01   0.03 
  1048576   9.8014e-03   4.9007e-03   427.93   0.01   0.01   0.02 
  2097152   9.8146e-03   9.8146e-03   427.35   0.01   0.01   0.03 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   4   6 
  4096   4   5   0   10   7 
  8192   4   5   10   0   7 
  16384   5   4   10   0   8 
  32768   5   4   0   10   8 
  65536   4   5   0   10   9 
  131072   0   5   2   4   1 
  262144   6   0   5   8   1 
  524288   4   0   5   3   10 
  1048576   1   2   5   6   10 
  2097152   9   6   3   4   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   2   2 
  8192    1   2   9 
  16384    2   2   11 
  32768    1   4   11 
  65536    2   11   11 
  131072    8   11   11 
  262144    4   11   11 
  524288    6   11   11 
  1048576    9   11   11 
  2097152    5   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.6857e-02   2.6227e-05   156.17   0.37   0.18   0.89 
  4096   2.0737e-02   4.0502e-05   202.26   0.37   0.44   0.49 
  8192   1.6658e-02   6.5071e-05   251.79   0.20   0.24   0.28 
  16384   1.4802e-02   1.1564e-04   283.35   0.10   0.11   0.14 
  32768   1.3839e-02   2.1624e-04   303.07   0.05   0.06   0.08 
  65536   1.1974e-02   3.7419e-04   350.29   0.03   0.04   0.05 
  131072   1.1035e-02   6.8967e-04   380.10   0.01   0.01   0.02 
  262144   1.0044e-02   1.2555e-03   417.60   0.01   0.01   0.03 
  524288   9.4195e-03   2.3549e-03   445.28   0.01   0.01   0.02 
  1048576   8.9750e-03   4.4875e-03   467.33   0.01   0.01   0.02 
  2097152   8.5035e-03   8.5035e-03   493.24   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   4   1   6 
  4096   4   5   10   0   1 
  8192   4   5   0   10   8 
  16384   4   5   10   7   0 
  32768   4   5   0   8   10 
  65536   4   5   10   0   6 
  131072   5   6   7   0   4 
  262144   5   10   0   6   2 
  524288   2   4   6   10   3 
  1048576   3   0   4   1   2 
  2097152   8   7   5   6   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   2   2 
  8192    1   2   7 
  16384    1   2   11 
  32768    2   3   11 
  65536    2   11   11 
  131072    5   11   11 
  262144    5   11   11 
  524288    8   11   11 
  1048576    5   11   11 
  2097152    6   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   1.9906e-02   1.9439e-05   210.71   0.49   0.22   1.20 
  4096   1.3516e-02   2.6399e-05   310.32   0.58   0.69   0.76 
  8192   9.1636e-03   3.5796e-05   457.71   0.40   0.48   0.53 
  16384   7.0649e-03   5.5195e-05   593.68   0.24   0.29   0.32 
  32768   6.2392e-03   9.7488e-05   672.25   0.13   0.15   0.18 
  65536   5.9782e-03   1.8682e-04   701.60   0.05   0.07   0.07 
  131072   7.1895e-03   4.4934e-04   583.39   0.02   0.02   0.03 
  262144   7.8374e-03   9.7968e-04   535.16   0.01   0.01   0.02 
  524288   8.9827e-03   2.2457e-03   466.93   0.01   0.01   0.02 
  1048576   8.9113e-03   4.4557e-03   470.67   0.01   0.00   0.01 
  2097152   8.6772e-03   8.6772e-03   483.37   0.00   0.00   0.01 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   4   6 
  4096   4   5   0   10   7 
  8192   4   5   10   0   2 
  16384   4   5   0   10   2 
  32768   4   5   0   10   2 
  65536   4   5   0   10   7 
  131072   4   5   0   10   2 
  262144   4   5   0   10   2 
  524288   4   2   0   10   8 
  1048576   2   6   10   5   1 
  2097152   5   9   8   1   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   1   2 
  8192    1   2   2 
  16384    1   2   2 
  32768    1   2   11 
  65536    1   3   11 
  131072    2   11   11 
  262144    4   11   11 
  524288    6   11   11 
  1048576    10   11   11 
  2097152    11   11   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:22:22 EDT.
81289 accesses since 1/2/96.