COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 128KB message using MPI within a node)

(performance measured per processor when all processors in an 8 processor LPAR node communicating with neighboring processor)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: i and i+1, i=0,2,4,...,30
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 503.01 9.88 36.0%
1 iter.1296.46 9.81 43.6%
10 iter.1456.02 9.80 40.9%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 495.63 11.20 35.6%
1 iter.1201.17 11.16 39.9%
10 iter.1452.18 11.17 37.5%
cache inv. w/overlap 497.77 11.39 33.7%
1 iter. w/overlap1163.29 11.53 39.4%
10 iter. w/overlap1383.02 11.20 36.6%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 495.80 10.99 34.7%
1 iter.1217.61 10.95 40.1%
10 iter.1413.30 10.86 38.3%
cache inv. w/overlap 509.15 11.22 37.5%
1 iter. w/overlap1230.57 11.12 41.2%
10 iter. w/overlap1396.86 10.95 37.9%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 489.81 11.92 33.4%
1 iter.1192.94 11.99 38.6%
10 iter.1406.46 11.96 35.6%
cache inv. w/overlap 510.51 12.31 32.0%
1 iter. w/overlap1146.47 12.26 34.4%
10 iter. w/overlap1361.62 12.17 35.5%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 513.85 13.91 16.5%
1 iter.1313.08 13.45 13.5%
10 iter.1538.42 13.51 27.8%
cache inv. w/overlap 528.69 11.44 16.4%
1 iter. w/overlap1348.29 11.53 15.7%
10 iter. w/overlap1575.04 11.40 27.4%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 508.40 14.66 14.2%
1 iter.1245.06 14.72 14.0%
10 iter.1534.82 14.59 30.2%
cache inv. w/overlap 525.56 12.59 16.4%
1 iter. w/overlap1360.89 12.41 18.7%
10 iter. w/overlap1601.45 12.20 24.1%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 494.36 11.31 34.4%
1 iter.1170.08 11.34 39.4%
10 iter.1406.27 11.34 38.0%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 508.20 23.58 13.5%
1 iter.1147.47 23.28 20.4%
10 iter.1460.36 23.05 27.4%
cache inv. w/overlap 487.15 23.21 13.1%
1 iter. w/overlap1250.21 23.08 22.0%
10 iter. w/overlap1398.20 22.52 31.1%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 497.74 23.39 11.7%
1 iter.1224.06 23.20 21.7%
10 iter.1439.41 23.06 29.9%
cache inv. w/overlap 514.71 23.28 12.4%
1 iter. w/overlap1153.53 23.51 20.7%
10 iter. w/overlap1406.39 22.82 28.5%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 491.37 23.82 11.7%
1 iter.1227.34 23.91 22.4%
10 iter.1442.58 23.82 27.1%
cache inv. w/overlap 493.48 22.06 12.7%
1 iter. w/overlap1143.60 22.45 19.6%
10 iter. w/overlap1353.09 23.84 25.4%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 498.01 22.11 10.8%
1 iter.1221.32 21.99 20.5%
10 iter.1497.78 21.96 27.8%


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.0809e-02   2.0322e-05   12.60   0.60   0.38   1.38 
  256   1.0696e-02   2.0892e-05   24.51   0.58   0.36   1.35 
  512   5.8411e-03   2.2817e-05   44.88   0.52   0.31   1.21 
  1024   3.2250e-03   2.5196e-05   81.28   0.48   0.28   1.07 
  2048   1.9165e-03   2.9945e-05   136.78   0.40   0.25   0.93 
  4096   1.2572e-03   3.9289e-05   208.51   0.31   0.20   0.74 
  8192   1.0614e-03   6.6337e-05   246.98   0.23   0.27   0.31 
  16384   8.4423e-04   1.0553e-04   310.51   0.14   0.16   0.19 
  32768   7.3779e-04   1.8445e-04   355.31   0.07   0.09   0.11 
  65536   5.8196e-04   2.9098e-04   450.45   0.07   0.07   0.11 
  131072   5.2324e-04   5.2324e-04   501.00   0.02   0.02   0.06 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   2   1   6   3 
  2048   0   2   1   6   3 
  4096   0   2   1   6   3 
  8192   4   5   0   10   8 
  16384   4   5   0   10   1 
  32768   5   4   0   10   3 
  65536   4   5   2   10   8 
  131072   0   6   10   8   4 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   5 
  2048    1   1   6 
  4096    1   1   6 
  8192    1   2   4 
  16384    2   2   11 
  32768    2   2   11 
  65536    1   2   11 
  131072    3   9   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.0422e-02   1.9944e-05   12.84   0.61   0.37   1.41 
  256   1.0381e-02   2.0275e-05   25.25   0.60   0.38   1.37 
  512   5.2989e-03   2.0699e-05   49.47   0.59   0.36   1.35 
  1024   2.7713e-03   2.1651e-05   94.59   0.56   0.33   1.29 
  2048   1.5115e-03   2.3617e-05   173.44   0.51   0.31   1.16 
  4096   8.6176e-04   2.6930e-05   304.20   0.45   0.27   1.00 
  8192   6.5971e-04   4.1232e-05   397.36   0.37   0.43   0.53 
  16384   4.4775e-04   5.5968e-05   585.47   0.29   0.33   0.39 
  32768   3.3413e-04   8.3533e-05   784.55   0.20   0.23   0.28 
  65536   2.5740e-04   1.2870e-04   1018.43   0.09   0.10   0.14 
  131072   2.0761e-04   2.0761e-04   1262.65   0.11   0.11   0.22 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   2   1   6   3 
  2048   0   2   1   6   3 
  4096   0   2   6   1   3 
  8192   4   5   0   10   7 
  16384   4   5   0   10   2 
  32768   4   5   0   10   6 
  65536   5   4   0   10   2 
  131072   4   5   0   1   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   5 
  2048    1   1   5 
  4096    1   1   5 
  8192    1   1   2 
  16384    1   1   2 
  32768    1   1   8 
  65536    1   2   11 
  131072    1   2   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.0289e-02   1.9813e-05   12.92   0.62   0.37   1.42 
  256   1.0249e-02   2.0017e-05   25.58   0.61   0.37   1.40 
  512   5.2097e-03   2.0350e-05   50.32   0.60   0.38   1.37 
  1024   2.6994e-03   2.1089e-05   97.11   0.57   0.35   1.31 
  2048   1.4148e-03   2.2106e-05   185.29   0.54   0.33   1.26 
  4096   7.7144e-04   2.4107e-05   339.81   0.49   0.29   1.13 
  8192   5.7047e-04   3.5654e-05   459.52   0.43   0.51   0.55 
  16384   3.5049e-04   4.3812e-05   747.93   0.35   0.41   0.48 
  32768   2.4457e-04   6.1143e-05   1071.85   0.25   0.30   0.34 
  65536   1.7559e-04   8.7797e-05   1492.89   0.17   0.20   0.24 
  131072   1.6762e-04   1.6762e-04   1563.88   0.08   0.08   0.13 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   2   1   6   3 
  2048   0   2   1   6   3 
  4096   0   2   1   6   3 
  8192   4   5   0   10   1 
  16384   4   5   10   0   2 
  32768   4   5   10   0   8 
  65536   4   5   0   10   8 
  131072   5   4   0   10   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   5 
  2048    1   1   5 
  4096    1   1   5 
  8192    1   1   2 
  16384    1   1   2 
  32768    1   2   3 
  65536    2   2   11 
  131072    2   2   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.1038e-02   2.0545e-05   12.46   0.54   0.23   1.29 
  256   1.0736e-02   2.0969e-05   24.42   0.53   0.23   1.28 
  512   5.9820e-03   2.3367e-05   43.82   0.46   0.18   1.14 
  1024   3.2597e-03   2.5467e-05   80.42   0.42   0.16   1.05 
  2048   1.9114e-03   2.9865e-05   137.15   0.37   0.16   0.89 
  4096   1.2717e-03   3.9742e-05   206.13   0.27   0.10   0.65 
  8192   9.9785e-04   6.2366e-05   262.71   0.29   0.34   0.40 
  16384   7.8893e-04   9.8617e-05   332.28   0.20   0.24   0.25 
  32768   7.0232e-04   1.7558e-04   373.25   0.12   0.13   0.19 
  65536   5.6195e-04   2.8097e-04   466.49   0.09   0.10   0.13 
  131072   5.0117e-04   5.0117e-04   523.06   0.06   0.06   0.10 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   6 
  256   0   2   6   1   4 
  512   0   2   1   4   6 
  1024   0   2   6   1   4 
  2048   0   2   6   1   4 
  4096   0   2   4   1   6 
  8192   4   5   10   0   3 
  16384   4   5   10   0   9 
  32768   4   5   3   0   10 
  65536   4   5   0   10   8 
  131072   4   5   8   2   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   2   2 
  16384    1   2   9 
  32768    1   2   11 
  65536    1   1   11 
  131072    1   3   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.0642e-02   2.0158e-05   12.70   0.55   0.24   1.33 
  256   1.0391e-02   2.0296e-05   25.23   0.55   0.24   1.32 
  512   5.3550e-03   2.0918e-05   48.95   0.53   0.24   1.29 
  1024   2.7963e-03   2.1846e-05   93.75   0.51   0.22   1.22 
  2048   1.5153e-03   2.3676e-05   173.00   0.45   0.18   1.13 
  4096   8.5197e-04   2.6624e-05   307.69   0.44   0.21   1.01 
  8192   6.2243e-04   3.8902e-05   421.16   0.44   0.52   0.58 
  16384   4.3192e-04   5.3990e-05   606.93   0.32   0.39   0.42 
  32768   3.3983e-04   8.4957e-05   771.41   0.20   0.23   0.28 
  65536   2.5105e-04   1.2553e-04   1044.18   0.15   0.16   0.23 
  131072   2.0116e-04   2.0116e-04   1303.16   0.17   0.18   0.32 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   6   1   4 
  256   0   2   6   1   4 
  512   0   2   6   1   4 
  1024   0   2   1   6   4 
  2048   0   2   6   1   4 
  4096   0   2   1   6   4 
  8192   4   5   0   9   10 
  16384   4   5   0   10   1 
  32768   4   5   0   10   7 
  65536   4   5   0   8   2 
  131072   5   4   7   10   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   2   2 
  16384    2   2   2 
  32768    1   1   8 
  65536    1   1   11 
  131072    1   1   10 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.0474e-02   1.9994e-05   12.80   0.56   0.23   1.38 
  256   1.0369e-02   2.0252e-05   25.28   0.55   0.23   1.35 
  512   5.2615e-03   2.0553e-05   49.82   0.54   0.22   1.33 
  1024   2.7183e-03   2.1237e-05   96.44   0.52   0.22   1.27 
  2048   1.4174e-03   2.2147e-05   184.94   0.50   0.20   1.18 
  4096   7.7272e-04   2.4148e-05   339.25   0.44   0.15   1.09 
  8192   4.9826e-04   3.1141e-05   526.12   0.62   0.74   0.81 
  16384   3.1947e-04   3.9933e-05   820.57   0.46   0.52   0.66 
  32768   2.2615e-04   5.6536e-05   1159.18   0.35   0.42   0.46 
  65536   1.6644e-04   8.3218e-05   1575.04   0.24   0.27   0.38 
  131072   1.6441e-04   1.6441e-04   1594.47   0.11   0.13   0.18 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   6   4 
  256   0   2   1   6   4 
  512   0   2   1   6   4 
  1024   0   2   1   6   4 
  2048   0   2   1   6   4 
  4096   0   2   1   4   6 
  8192   4   5   0   10   7 
  16384   4   5   0   10   2 
  32768   4   5   10   0   2 
  65536   4   5   0   2   10 
  131072   4   5   2   8   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   1   2 
  16384    1   2   2 
  32768    1   2   2 
  65536    1   2   2 
  131072    2   2   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:21:34 EDT.
81972 accesses since 1/2/96.