COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(unordered swap of 128KB message using MPI within an 8 processor LPAR node)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
Communication Library: MPI
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 1, both on the same node
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 970.81 13.91 23.5%
1 iter.2157.68 13.88 35.5%
10 iter.2351.74 12.78 38.5%
cache inv. w/overlap 967.80 14.21 25.4%
1 iter. w/overlap2038.44 14.74 30.5%
10 iter. w/overlap2517.81 13.26 39.2%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 997.10 11.18 29.8%
1 iter.2092.24 10.36 43.9%
10 iter.2337.43 11.73 38.3%
cache inv. w/overlap 980.34 11.08 28.8%
1 iter. w/overlap1981.34 10.75 37.9%
10 iter. w/overlap2527.45 9.18 48.8%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv.1005.46 14.14 43.2%
1 iter.2045.87 14.21 43.0%
10 iter.2012.84 13.96 38.0%
cache inv. w/overlap 988.48 13.73 41.6%
1 iter. w/overlap2041.41 14.35 40.2%
10 iter. w/overlap2474.30 11.59 45.6%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 979.46 17.55 6.6%
1 iter.1956.10 18.11 13.5%
10 iter.2372.32 18.17 32.9%
cache inv. w/overlap1024.85 11.20 5.6%
1 iter. w/overlap2234.44 11.61 12.9%
10 iter. w/overlap2794.16 9.15 26.0%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 952.47 22.90 13.3%
1 iter.1975.96 22.99 18.4%
10 iter.2421.88 22.98 37.8%
cache inv. w/overlap 994.22 14.52 14.2%
1 iter. w/overlap2290.13 14.40 13.9%
10 iter. w/overlap2837.47 11.73 25.4%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 996.69 8.16 35.9%
1 iter.2087.58 7.92 47.9%
10 iter.2401.38 7.66 51.2%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 965.71 25.41 13.4%
1 iter.2106.59 26.54 21.3%
10 iter.2431.46 25.78 39.2%
cache inv. w/overlap 946.28 26.45 13.7%
1 iter. w/overlap2183.08 27.23 22.7%
10 iter. w/overlap2477.23 25.39 38.2%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 941.43 24.22 15.8%
1 iter.2113.16 24.26 19.6%
10 iter.2262.64 24.19 41.8%
cache inv. w/overlap 965.09 24.56 9.6%
1 iter. w/overlap2162.90 24.43 20.2%
10 iter. w/overlap2491.96 24.40 33.5%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 951.77 26.81 24.8%
1 iter.2114.75 27.35 22.1%
10 iter.2045.46 27.50 21.5%
cache inv. w/overlap 976.98 26.31 18.3%
1 iter. w/overlap2142.63 26.72 21.8%
10 iter. w/overlap2570.91 25.57 36.4%


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   8.5284e-03   8.3285e-06   30.74   1.20   1.14   2.22 
  256   4.3490e-03   8.4942e-06   60.28   1.17   1.13   2.15 
  512   2.6881e-03   1.0500e-05   97.52   0.84   0.80   1.76 
  1024   1.5978e-03   1.2483e-05   164.06   0.69   0.60   1.49 
  2048   9.2235e-04   1.4412e-05   284.21   0.59   0.46   1.40 
  4096   5.7245e-04   1.7889e-05   457.93   0.50   0.46   1.33 
  8192   5.5536e-04   3.4710e-05   472.03   0.21   0.13   0.55 
  16384   4.0669e-04   5.0837e-05   644.57   0.13   0.06   0.60 
  32768   3.2417e-04   8.1043e-05   808.65   0.05   0.02   0.27 
  65536   2.8121e-04   1.4061e-04   932.19   0.02   0.03   0.05 
  131072   2.6537e-04   2.6537e-04   987.83   0.04   0.04   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   1   3   4 
  256   6   2   1   3   4 
  512   6   2   1   3   4 
  1024   6   2   1   3   4 
  2048   6   2   1   3   4 
  4096   6   2   1   3   4 
  8192   4   5   6   2   8 
  16384   4   5   6   2   8 
  32768   8   6   4   3   7 
  65536   3   5   1   7   6 
  131072   8   9   7   3   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   1 
  256    1   1   1 
  512    1   1   3 
  1024    1   2   3 
  2048    2   2   4 
  4096    1   1   4 
  8192    1   1   7 
  16384    1   4   8 
  32768    3   7   8 
  65536    3   9   9 
  131072    1   7   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   8.1775e-03   7.9859e-06   32.06   1.29   1.27   2.38 
  256   4.1247e-03   8.0560e-06   63.56   1.26   1.25   2.31 
  512   2.3674e-03   9.2478e-06   110.73   0.99   0.89   1.93 
  1024   1.3615e-03   1.0637e-05   192.54   0.80   0.74   1.67 
  2048   6.8989e-04   1.0780e-05   379.98   0.87   0.79   1.87 
  4096   4.5161e-04   1.4113e-05   580.46   0.55   0.46   1.27 
  8192   4.1389e-04   2.5868e-05   633.36   0.27   0.26   0.57 
  16384   2.4943e-04   3.1178e-05   1050.99   0.26   0.18   0.59 
  32768   1.8703e-04   4.6757e-05   1401.64   0.12   0.09   0.43 
  65536   1.4236e-04   7.1180e-05   1841.42   0.08   0.05   0.33 
  131072   1.3089e-04   1.3089e-04   2002.73   0.06   0.02   0.26 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   1   3   4 
  256   6   2   1   3   4 
  512   6   2   1   3   4 
  1024   6   2   1   3   4 
  2048   6   2   1   3   4 
  4096   6   2   1   3   4 
  8192   4   5   6   2   8 
  16384   4   5   6   2   8 
  32768   4   6   5   8   9 
  65536   6   3   1   7   4 
  131072   6   9   2   4   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   1 
  256    1   1   1 
  512    1   1   2 
  1024    1   2   3 
  2048    1   1   2 
  4096    1   2   4 
  8192    1   1   3 
  16384    1   1   6 
  32768    1   2   8 
  65536    1   3   8 
  131072    2   6   8 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   7.9081e-03   7.7227e-06   33.15   1.37   1.34   2.51 
  256   3.9872e-03   7.7875e-06   65.75   1.34   1.31   2.43 
  512   2.0811e-03   8.1293e-06   125.96   1.25   1.14   2.29 
  1024   1.0847e-03   8.4745e-06   241.67   1.18   1.05   2.21 
  2048   5.8786e-04   9.1852e-06   445.93   1.11   1.03   2.21 
  4096   3.3530e-04   1.0478e-05   781.82   0.95   0.88   2.01 
  8192   3.5289e-04   2.2056e-05   742.85   0.38   0.39   0.63 
  16384   2.0369e-04   2.5462e-05   1286.95   0.30   0.26   0.65 
  32768   1.3788e-04   3.4470e-05   1901.25   0.25   0.18   0.67 
  65536   1.0977e-04   5.4885e-05   2388.11   0.11   0.05   0.39 
  131072   1.0694e-04   1.0694e-04   2451.38   0.07   0.04   0.21 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   1   3   4 
  256   6   2   1   3   4 
  512   6   2   1   3   4 
  1024   6   2   1   3   4 
  2048   6   2   1   3   4 
  4096   6   2   1   3   4 
  8192   4   5   6   2   8 
  16384   4   5   6   8   2 
  32768   4   5   6   2   8 
  65536   6   4   1   7   2 
  131072   6   7   5   4   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   1 
  256    1   1   1 
  512    1   1   1 
  1024    1   1   1 
  2048    1   1   1 
  4096    1   1   2 
  8192    1   1   2 
  16384    1   1   4 
  32768    1   1   7 
  65536    2   5   7 
  131072    1   6   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.5474e-03   9.3237e-06   27.46   0.81   0.51   1.89 
  256   5.1967e-03   1.0150e-05   50.44   0.67   0.42   1.71 
  512   2.9580e-03   1.1555e-05   88.62   0.58   0.33   1.51 
  1024   1.6453e-03   1.2854e-05   159.33   0.50   0.22   1.33 
  2048   9.2501e-04   1.4453e-05   283.39   0.45   0.14   1.27 
  4096   5.8480e-04   1.8275e-05   448.26   0.36   0.18   1.09 
  8192   4.2149e-04   2.6343e-05   621.94   0.51   0.51   1.00 
  16384   3.4845e-04   4.3557e-05   752.31   0.27   0.25   0.64 
  32768   2.9392e-04   7.3480e-05   891.89   0.16   0.15   0.49 
  65536   2.6841e-04   1.3421e-04   976.64   0.06   0.08   0.10 
  131072   2.5285e-04   2.5285e-04   1036.74   0.04   0.05   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   4   1   3 
  256   6   2   4   1   3 
  512   6   2   4   1   3 
  1024   4   2   6   1   3 
  2048   2   6   4   5   1 
  4096   2   4   6   1   3 
  8192   4   5   6   2   8 
  16384   4   5   2   6   8 
  32768   5   4   7   6   8 
  65536   5   4   6   3   1 
  131072   3   4   8   7   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   3 
  256    1   1   3 
  512    2   3   4 
  1024    1   3   5 
  2048    1   2   5 
  4096    1   2   6 
  8192    1   1   2 
  16384    1   2   5 
  32768    2   2   8 
  65536    1   3   9 
  131072    2   5   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   8.8041e-03   8.5977e-06   29.78   0.96   0.68   2.15 
  256   4.4065e-03   8.6065e-06   59.49   0.94   0.68   2.18 
  512   2.5197e-03   9.8426e-06   104.04   0.74   0.48   1.87 
  1024   1.2588e-03   9.8347e-06   208.24   0.77   0.53   1.89 
  2048   7.6976e-04   1.2027e-05   340.55   0.55   0.26   1.47 
  4096   4.2261e-04   1.3207e-05   620.29   0.53   0.23   1.44 
  8192   2.8871e-04   1.8044e-05   907.99   0.68   0.80   1.07 
  16384   2.0163e-04   2.5203e-05   1300.15   0.44   0.47   0.83 
  32768   1.5592e-04   3.8980e-05   1681.27   0.25   0.26   0.51 
  65536   1.2567e-04   6.2833e-05   2086.03   0.13   0.17   0.19 
  131072   1.1617e-04   1.1617e-04   2256.49   0.15   0.13   0.42 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   4   1   3 
  256   6   2   4   1   5 
  512   6   2   4   1   3 
  1024   6   2   4   1   3 
  2048   6   2   4   1   5 
  4096   6   4   2   1   5 
  8192   4   5   2   8   6 
  16384   4   5   2   6   1 
  32768   4   5   6   8   9 
  65536   4   5   6   2   3 
  131072   4   5   9   6   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   1 
  256    1   1   1 
  512    1   1   3 
  1024    1   1   3 
  2048    1   3   4 
  4096    1   2   5 
  8192    1   1   2 
  16384    1   2   2 
  32768    1   2   4 
  65536    2   2   9 
  131072    1   2   8 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   8.0232e-03   7.8352e-06   32.67   0.97   0.48   2.29 
  256   4.0917e-03   7.9916e-06   64.07   0.94   0.46   2.25 
  512   2.1032e-03   8.2155e-06   124.64   0.91   0.47   2.18 
  1024   1.1210e-03   8.7581e-06   233.84   0.83   0.48   2.05 
  2048   5.9424e-04   9.2850e-06   441.14   0.81   0.45   1.97 
  4096   3.4013e-04   1.0629e-05   770.71   0.71   0.39   1.80 
  8192   2.2313e-04   1.3946e-05   1174.82   1.02   1.19   1.42 
  16384   1.4475e-04   1.8093e-05   1811.05   0.64   0.73   0.97 
  32768   1.0352e-04   2.5880e-05   2532.30   0.50   0.57   0.81 
  65536   9.2387e-05   4.6193e-05   2837.47   0.18   0.22   0.25 
  131072   9.1031e-05   9.1031e-05   2879.73   0.12   0.14   0.18 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   4   3   5 
  256   6   2   4   5   3 
  512   6   2   4   5   3 
  1024   6   2   4   3   5 
  2048   6   2   4   1   3 
  4096   6   2   4   1   5 
  8192   4   5   6   8   2 
  16384   4   5   6   8   2 
  32768   4   5   6   2   8 
  65536   5   4   6   1   9 
  131072   4   5   6   9   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   3 
  256    1   1   3 
  512    1   1   3 
  1024    1   1   3 
  2048    1   1   3 
  4096    1   1   3 
  8192    1   1   1 
  16384    1   1   2 
  32768    1   1   2 
  65536    1   2   8 
  131072    1   2   9 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:20:41 EDT.
2795 accesses since 1/2/96.