COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 8KB message using MPI within a node)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
Communication Library: MPI
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 16, both on the same node
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 210.92 8.50 21.9%
1 iter. 420.30 8.46 51.0%
10 iter. 369.75 8.58 43.3%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 192.81 10.05 23.7%
1 iter. 264.31 9.90 65.2%
10 iter. 341.28 9.68 40.3%
cache inv. w/overlap 160.56 10.67 21.3%
1 iter. w/overlap 272.70 10.54 53.7%
10 iter. w/overlap 319.49 10.42 49.3%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 183.99 9.72 21.8%
1 iter. 282.80 9.34 73.1%
10 iter. 325.76 9.46 41.1%
cache inv. w/overlap 193.45 10.02 23.7%
1 iter. w/overlap 356.06 9.83 42.7%
10 iter. w/overlap 333.67 9.78 43.4%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 176.20 10.45 22.5%
1 iter. 261.73 10.79 56.6%
10 iter. 315.68 10.48 40.4%
cache inv. w/overlap 170.73 11.42 27.6%
1 iter. w/overlap 356.06 11.51 50.0%
10 iter. w/overlap 323.16 11.24 44.3%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 191.10 11.87 27.7%
1 iter. 347.95 11.66 49.5%
10 iter. 469.56 11.54 66.2%
cache inv. w/overlap 235.00 10.45 30.0%
1 iter. w/overlap 455.10 10.23 56.8%
10 iter. w/overlap 523.38 10.34 66.1%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 178.26 12.83 27.9%
1 iter. 294.32 13.02 46.8%
10 iter. 442.78 12.83 69.4%
cache inv. w/overlap 230.98 11.51 32.4%
1 iter. w/overlap 497.97 11.33 68.9%
10 iter. w/overlap 548.06 11.20 74.9%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 165.39 10.17 36.7%
1 iter. 293.76 9.82 35.2%
10 iter. 324.88 10.17 40.4%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 198.10 19.38 46.9%
1 iter. 287.53 19.62 68.9%
10 iter. 328.92 19.23 77.2%
cache inv. w/overlap 157.61 20.82 41.1%
1 iter. w/overlap 282.80 19.85 68.5%
10 iter. w/overlap 325.07 19.74 78.4%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 186.55 19.17 43.7%
1 iter. 298.13 18.98 69.1%
10 iter. 350.06 19.18 82.0%
cache inv. w/overlap 210.15 20.97 53.8%
1 iter. w/overlap 292.42 20.63 73.6%
10 iter. w/overlap 338.52 20.61 85.2%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 163.81 20.70 41.4%
1 iter. 268.44 20.89 73.4%
10 iter. 357.37 20.61 89.9%
cache inv. w/overlap 200.16 21.25 51.9%
1 iter. w/overlap 303.40 21.13 78.3%
10 iter. w/overlap 313.10 20.54 78.5%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 197.19 18.42 44.3%
1 iter. 321.12 18.75 73.5%
10 iter. 365.86 18.49 82.6%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.7483e-02   1.7073e-05   0.94   0.62   0.42   1.42 
  16   8.7761e-03   1.7141e-05   1.87   0.62   0.43   1.40 
  32   4.5100e-03   1.7617e-05   3.63   0.56   0.32   1.35 
  64   2.1967e-03   1.7162e-05   7.46   0.64   0.38   1.41 
  128   1.1649e-03   1.8201e-05   14.07   0.56   0.36   1.26 
  256   5.9428e-04   1.8571e-05   27.57   0.58   0.39   1.35 
  512   3.2920e-04   2.0575e-05   49.77   0.55   0.47   1.21 
  1024   1.9112e-04   2.3890e-05   85.73   0.47   0.32   1.09 
  2048   1.2491e-04   3.1227e-05   131.17   0.34   0.22   0.78 
  4096   1.0705e-04   5.3525e-05   153.05   0.19   0.22   0.35 
  8192   7.0947e-05   7.0947e-05   230.93   0.21   0.23   0.34 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   1   2   6   3 
  512   0   1   2   6   3 
  1024   0   2   1   3   6 
  2048   0   6   2   1   3 
  4096   4   0   10   5   7 
  8192   0   10   4   9   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   4 
  32    1   1   5 
  64    1   1   4 
  128    1   1   5 
  256    1   1   5 
  512    1   1   4 
  1024    1   1   5 
  2048    1   1   6 
  4096    1   1   7 
  8192    1   1   8 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.7490e-02   1.7080e-05   0.94   0.60   0.36   1.41 
  16   8.8217e-03   1.7230e-05   1.86   0.58   0.35   1.35 
  32   4.2972e-03   1.6786e-05   3.81   0.62   0.38   1.48 
  64   2.1889e-03   1.7101e-05   7.49   0.61   0.45   1.39 
  128   1.0885e-03   1.7008e-05   15.05   0.65   0.36   1.46 
  256   5.6991e-04   1.7810e-05   28.75   0.55   0.33   1.32 
  512   2.7921e-04   1.7451e-05   58.68   0.58   0.35   1.30 
  1024   1.3381e-04   1.6727e-05   122.44   0.64   0.47   1.48 
  2048   7.0653e-05   1.7663e-05   231.89   0.60   0.58   1.19 
  4096   6.9976e-05   3.4988e-05   234.14   0.23   0.19   0.47 
  8192   4.1008e-05   4.1008e-05   399.53   0.27   0.29   0.44 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   1   2   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   1   2   3   6 
  512   0   2   1   6   4 
  1024   0   2   1   6   3 
  2048   0   2   1   3   4 
  4096   4   8   5   7   0 
  8192   4   5   2   6   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   5 
  32    1   1   4 
  64    1   1   5 
  128    1   1   4 
  256    1   1   5 
  512    1   2   4 
  1024    1   1   3 
  2048    1   1   3 
  4096    1   1   7 
  8192    1   1   5 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.7605e-02   1.7192e-05   0.93   0.59   0.35   1.39 
  16   8.8144e-03   1.7216e-05   1.86   0.59   0.35   1.38 
  32   4.4023e-03   1.7196e-05   3.72   0.59   0.35   1.40 
  64   2.1825e-03   1.7050e-05   7.51   0.61   0.36   1.42 
  128   1.1232e-03   1.7550e-05   14.59   0.58   0.36   1.34 
  256   5.5952e-04   1.7485e-05   29.28   0.61   0.43   1.44 
  512   2.9420e-04   1.8388e-05   55.69   0.54   0.35   1.29 
  1024   1.4319e-04   1.7898e-05   114.43   0.60   0.43   1.40 
  2048   7.8853e-05   1.9713e-05   207.78   0.56   0.37   1.29 
  4096   5.9467e-05   2.9733e-05   275.52   0.41   0.45   0.59 
  8192   3.5148e-05   3.5148e-05   466.14   0.33   0.40   0.49 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   2   1   6   3 
  2048   0   2   1   3   6 
  4096   4   5   2   10   1 
  8192   4   5   0   10   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   5 
  64    1   1   5 
  128    1   1   5 
  256    1   1   4 
  512    1   1   5 
  1024    1   1   4 
  2048    1   1   4 
  4096    1   1   2 
  8192    1   2   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.8739e-02   1.8300e-05   0.87   0.55   0.25   1.30 
  16   9.1170e-03   1.7807e-05   1.80   0.59   0.28   1.34 
  32   4.6959e-03   1.8343e-05   3.49   0.54   0.25   1.27 
  64   2.3580e-03   1.8422e-05   6.95   0.55   0.24   1.30 
  128   1.1880e-03   1.8563e-05   13.79   0.56   0.27   1.34 
  256   6.0036e-04   1.8761e-05   27.29   0.57   0.27   1.30 
  512   3.5298e-04   2.2061e-05   46.42   0.46   0.23   1.13 
  1024   1.8769e-04   2.3462e-05   87.29   0.49   0.32   1.14 
  2048   1.1039e-04   2.7597e-05   148.42   0.48   0.35   1.02 
  4096   9.4056e-05   4.7028e-05   174.19   0.33   0.39   0.59 
  8192   6.7949e-05   6.7949e-05   241.12   0.25   0.23   0.51 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   6   4   1 
  16   0   2   4   1   6 
  32   0   2   6   1   4 
  64   0   4   2   1   6 
  128   0   2   4   1   6 
  256   0   2   4   1   6 
  512   0   2   4   5   3 
  1024   0   4   2   6   1 
  2048   0   6   4   2   3 
  4096   4   5   8   2   10 
  8192   5   4   8   0   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   6 
  16    1   1   5 
  32    1   1   6 
  64    1   1   6 
  128    1   1   5 
  256    1   1   5 
  512    1   1   7 
  1024    1   1   4 
  2048    1   1   4 
  4096    1   2   3 
  8192    1   2   7 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.8273e-02   1.7845e-05   0.90   0.57   0.27   1.32 
  16   9.0381e-03   1.7653e-05   1.81   0.58   0.27   1.33 
  32   4.5751e-03   1.7872e-05   3.58   0.56   0.25   1.33 
  64   2.2811e-03   1.7821e-05   7.18   0.57   0.25   1.32 
  128   1.1547e-03   1.8043e-05   14.19   0.56   0.24   1.29 
  256   5.6221e-04   1.7569e-05   29.14   0.61   0.31   1.42 
  512   2.8480e-04   1.7800e-05   57.53   0.61   0.32   1.38 
  1024   1.4691e-04   1.8363e-05   111.53   0.51   0.25   1.17 
  2048   7.6627e-05   1.9157e-05   213.82   0.55   0.29   1.34 
  4096   5.4002e-05   2.7001e-05   303.40   0.53   0.56   0.91 
  8192   3.3021e-05   3.3021e-05   496.17   0.52   0.57   0.94 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   4   1   6 
  16   0   2   4   1   6 
  32   0   2   1   4   6 
  64   0   2   4   6   1 
  128   0   2   1   6   4 
  256   0   2   4   1   6 
  512   0   2   6   1   4 
  1024   0   3   1   2   6 
  2048   0   5   2   1   6 
  4096   5   4   3   7   10 
  8192   5   4   10   7   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   5 
  64    1   1   6 
  128    1   1   6 
  256    1   1   4 
  512    1   1   4 
  1024    1   1   6 
  2048    1   1   4 
  4096    2   2   2 
  8192    1   2   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.8339e-02   1.7909e-05   0.89   0.55   0.26   1.30 
  16   9.1455e-03   1.7862e-05   1.79   0.56   0.26   1.30 
  32   4.5727e-03   1.7862e-05   3.58   0.56   0.26   1.30 
  64   2.2784e-03   1.7800e-05   7.19   0.56   0.26   1.32 
  128   1.1585e-03   1.8102e-05   14.14   0.54   0.26   1.28 
  256   5.8550e-04   1.8297e-05   27.98   0.55   0.25   1.34 
  512   3.0591e-04   1.9119e-05   53.56   0.50   0.21   1.25 
  1024   1.5420e-04   1.9275e-05   106.25   0.51   0.23   1.25 
  2048   8.2197e-05   2.0549e-05   199.33   0.48   0.19   1.20 
  4096   5.2905e-05   2.6453e-05   309.69   0.61   0.70   0.89 
  8192   2.9910e-05   2.9910e-05   547.78   0.55   0.66   0.71 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   4   1   6 
  16   0   2   4   1   6 
  32   0   2   4   1   6 
  64   0   2   4   1   6 
  128   0   2   4   6   1 
  256   0   2   4   1   6 
  512   0   2   1   6   4 
  1024   0   2   4   1   6 
  2048   0   2   1   4   5 
  4096   4   5   10   0   8 
  8192   4   5   10   8   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   5 
  64    1   1   5 
  128    1   1   5 
  256    1   1   5 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   2   2 
  8192    1   1   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:22:31 EDT.
81954 accesses since 1/2/96.