COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 8KB message using MPI within a node)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
Communication Library: MPI
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 1, both on the same node
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 229.13 9.61 53.7%
1 iter. 319.83 9.61 75.1%
10 iter. 349.84 9.54 81.5%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 194.55 10.86 49.1%
1 iter. 294.32 10.97 78.9%
10 iter. 315.58 10.90 83.5%
cache inv. w/overlap 194.12 11.19 53.1%
1 iter. w/overlap 287.44 11.14 78.2%
10 iter. w/overlap 320.55 10.95 85.7%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 206.14 10.67 42.5%
1 iter. 299.93 10.44 76.5%
10 iter. 322.89 10.47 82.5%
cache inv. w/overlap 212.78 10.70 48.8%
1 iter. w/overlap 305.22 10.81 80.6%
10 iter. w/overlap 338.48 10.57 84.7%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 182.04 11.68 51.9%
1 iter. 298.32 11.72 69.3%
10 iter. 323.92 11.67 75.1%
cache inv. w/overlap 188.58 12.03 55.4%
1 iter. w/overlap 300.37 12.03 88.2%
10 iter. w/overlap 316.90 11.92 92.2%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 219.78 12.76 34.2%
1 iter. 442.97 12.56 67.9%
10 iter. 498.12 12.41 75.5%
cache inv. w/overlap 279.08 11.32 38.6%
1 iter. w/overlap 505.06 11.24 69.3%
10 iter. w/overlap 591.00 11.07 79.9%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 235.99 13.50 38.9%
1 iter. 409.33 13.41 67.0%
10 iter. 462.65 13.41 75.8%
cache inv. w/overlap 260.17 12.06 38.3%
1 iter. w/overlap 468.29 12.11 69.2%
10 iter. w/overlap 534.49 11.94 77.9%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 182.80 11.07 49.4%
1 iter. 317.03 11.02 85.3%
10 iter. 313.58 11.06 83.3%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 199.22 22.15 53.9%
1 iter. 281.83 22.01 75.7%
10 iter. 319.39 22.05 86.0%
cache inv. w/overlap 198.55 22.45 54.4%
1 iter. w/overlap 277.26 22.32 75.5%
10 iter. w/overlap 317.67 21.92 85.0%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 192.93 21.95 51.7%
1 iter. 288.38 21.80 76.7%
10 iter. 322.89 21.89 86.3%
cache inv. w/overlap 210.41 21.96 56.4%
1 iter. w/overlap 312.43 21.82 83.2%
10 iter. w/overlap 328.99 21.40 85.9%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 180.52 22.29 49.1%
1 iter. 275.95 22.21 74.8%
10 iter. 329.17 22.50 90.4%
cache inv. w/overlap 198.10 21.02 50.8%
1 iter. w/overlap 307.97 20.96 78.8%
10 iter. w/overlap 317.68 22.44 87.0%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 216.72 21.26 56.2%
1 iter. 303.03 21.11 78.1%
10 iter. 323.56 21.11 83.4%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.9703e-02   1.9242e-05   0.83   0.59   0.32   1.32 
  16   9.8645e-03   1.9267e-05   1.66   0.58   0.31   1.31 
  32   4.9081e-03   1.9172e-05   3.34   0.59   0.31   1.31 
  64   2.4816e-03   1.9388e-05   6.60   0.58   0.35   1.29 
  128   1.2572e-03   1.9644e-05   13.03   0.57   0.32   1.28 
  256   6.4672e-04   2.0210e-05   25.33   0.56   0.32   1.25 
  512   3.5036e-04   2.1898e-05   46.76   0.53   0.28   1.20 
  1024   1.9508e-04   2.4385e-05   83.99   0.46   0.28   1.05 
  2048   1.1751e-04   2.9377e-05   139.43   0.39   0.31   0.88 
  4096   7.1507e-05   3.5753e-05   229.13   0.45   0.32   0.92 
  8192   6.8107e-05   6.8107e-05   240.56   0.15   0.15   0.34 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   1   2   6   3 
  512   0   2   1   6   3 
  1024   0   2   1   6   3 
  2048   0   2   6   1   3 
  4096   0   1   2   6   3 
  8192   5   4   9   10   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   5 
  64    1   1   5 
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   5 
  2048    1   1   5 
  4096    1   1   3 
  8192    1   2   10 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.9642e-02   1.9182e-05   0.83   0.58   0.30   1.32 
  16   9.7971e-03   1.9135e-05   1.67   0.58   0.29   1.33 
  32   4.8821e-03   1.9071e-05   3.36   0.59   0.32   1.32 
  64   2.4542e-03   1.9173e-05   6.68   0.58   0.29   1.31 
  128   1.2403e-03   1.9379e-05   13.21   0.57   0.30   1.28 
  256   6.3013e-04   1.9692e-05   26.00   0.56   0.31   1.26 
  512   3.2175e-04   2.0109e-05   50.92   0.53   0.26   1.25 
  1024   1.6645e-04   2.0807e-05   98.43   0.52   0.28   1.20 
  2048   8.9160e-05   2.2290e-05   183.76   0.48   0.27   1.11 
  4096   5.1227e-05   2.5613e-05   319.83   0.38   0.21   0.85 
  8192   3.6800e-05   3.6800e-05   445.22   0.48   0.54   0.71 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   1   2   6   3 
  2048   0   2   1   6   3 
  4096   0   6   2   1   3 
  8192   4   5   10   0   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   5 
  64    1   1   5 
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   2   5 
  2048    2   2   5 
  4096    2   2   6 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.9549e-02   1.9090e-05   0.84   0.59   0.30   1.35 
  16   9.7770e-03   1.9096e-05   1.68   0.59   0.30   1.34 
  32   4.8845e-03   1.9080e-05   3.35   0.59   0.30   1.33 
  64   2.4538e-03   1.9170e-05   6.68   0.58   0.30   1.32 
  128   1.2374e-03   1.9335e-05   13.24   0.58   0.30   1.30 
  256   6.2364e-04   1.9489e-05   26.27   0.57   0.31   1.29 
  512   3.1531e-04   1.9707e-05   51.96   0.56   0.29   1.27 
  1024   1.6250e-04   2.0312e-05   100.83   0.53   0.29   1.22 
  2048   8.5311e-05   2.1328e-05   192.05   0.52   0.28   1.16 
  4096   4.6833e-05   2.3417e-05   349.84   0.45   0.24   1.01 
  8192   3.3324e-05   3.3324e-05   491.66   0.45   0.52   0.60 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   1   2   6   3 
  2048   0   2   1   6   3 
  4096   0   2   1   6   3 
  8192   4   5   0   10   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   5 
  64    1   1   5 
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   2   5 
  2048    1   1   5 
  4096    1   1   6 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.9846e-02   1.9381e-05   0.83   0.55   0.25   1.31 
  16   9.9937e-03   1.9519e-05   1.64   0.54   0.24   1.30 
  32   4.9673e-03   1.9404e-05   3.30   0.55   0.25   1.30 
  64   2.4853e-03   1.9417e-05   6.59   0.55   0.25   1.30 
  128   1.2643e-03   1.9754e-05   12.96   0.54   0.24   1.28 
  256   6.5053e-04   2.0329e-05   25.19   0.53   0.23   1.26 
  512   3.5992e-04   2.2495e-05   45.52   0.46   0.20   1.09 
  1024   1.9736e-04   2.4670e-05   83.02   0.42   0.18   1.01 
  2048   1.1713e-04   2.9283e-05   139.87   0.36   0.12   0.91 
  4096   7.4547e-05   3.7273e-05   219.78   0.30   0.16   0.76 
  8192   5.6520e-05   5.6520e-05   289.88   0.35   0.38   0.52 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   6   1   4 
  16   0   2   6   1   4 
  32   0   2   6   1   4 
  64   0   2   6   1   4 
  128   0   2   6   1   4 
  256   0   2   6   1   4 
  512   0   2   4   6   1 
  1024   0   2   4   1   6 
  2048   0   2   6   4   5 
  4096   0   2   4   6   1 
  8192   4   5   8   0   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   6 
  16    1   1   7 
  32    1   1   5 
  64    1   1   6 
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   2   7 
  4096    1   1   7 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.9720e-02   1.9258e-05   0.83   0.55   0.25   1.31 
  16   9.9212e-03   1.9377e-05   1.65   0.54   0.24   1.30 
  32   4.9210e-03   1.9223e-05   3.33   0.55   0.25   1.31 
  64   2.4613e-03   1.9229e-05   6.66   0.55   0.25   1.33 
  128   1.2420e-03   1.9406e-05   13.19   0.54   0.25   1.30 
  256   6.2669e-04   1.9584e-05   26.14   0.54   0.24   1.29 
  512   3.2076e-04   2.0047e-05   51.08   0.53   0.24   1.26 
  1024   1.6675e-04   2.0843e-05   98.26   0.52   0.22   1.21 
  2048   9.0293e-05   2.2573e-05   181.45   0.47   0.20   1.10 
  4096   5.0453e-05   2.5227e-05   324.74   0.35   0.13   0.89 
  8192   3.4520e-05   3.4520e-05   474.62   0.51   0.63   0.76 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   6   1   4 
  16   0   2   6   1   4 
  32   0   2   1   6   4 
  64   0   2   6   1   4 
  128   0   2   6   1   4 
  256   0   2   1   6   4 
  512   0   2   1   6   4 
  1024   0   2   6   1   4 
  2048   0   2   6   1   4 
  4096   0   4   2   3   5 
  8192   4   5   10   0   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   7 
  32    1   1   6 
  64    1   1   5 
  128    1   1   6 
  256    1   1   6 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   2   7 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.9667e-02   1.9206e-05   0.83   0.55   0.24   1.34 
  16   9.8409e-03   1.9221e-05   1.66   0.55   0.24   1.34 
  32   4.9190e-03   1.9215e-05   3.33   0.55   0.24   1.33 
  64   2.4662e-03   1.9267e-05   6.64   0.55   0.23   1.34 
  128   1.2383e-03   1.9349e-05   13.23   0.55   0.24   1.33 
  256   6.2651e-04   1.9579e-05   26.15   0.54   0.22   1.33 
  512   3.1621e-04   1.9763e-05   51.81   0.54   0.23   1.29 
  1024   1.6268e-04   2.0335e-05   100.71   0.52   0.21   1.27 
  2048   8.5037e-05   2.1259e-05   192.67   0.49   0.19   1.19 
  4096   4.6048e-05   2.3024e-05   355.80   0.41   0.12   0.99 
  8192   2.8633e-05   2.8633e-05   572.20   0.65   0.79   0.85 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   4 
  16   0   2   1   6   4 
  32   0   2   1   6   4 
  64   0   2   1   4   6 
  128   0   2   1   6   4 
  256   0   2   1   6   4 
  512   0   2   1   4   6 
  1024   0   2   1   4   6 
  2048   0   2   4   1   6 
  4096   0   2   5   4   1 
  8192   4   5   10   0   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   7 
  16    1   1   7 
  32    1   1   7 
  64    1   1   7 
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   1   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:21:46 EDT.
80981 accesses since 1/2/96.