COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 128KB message using MPI within an 8 processor LPAR node)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
Communication Library: MPI
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 2, both on the same node
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 789.46 6.27 42.7%
1 iter.1767.42 6.22 42.4%
10 iter.1732.60 6.57 42.1%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 716.81 7.42 38.1%
1 iter.1593.90 7.62 35.0%
10 iter.1706.56 7.59 38.3%
cache inv. w/overlap 719.04 8.17 34.9%
1 iter. w/overlap1686.32 8.34 36.0%
10 iter. w/overlap1722.64 8.43 32.7%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 745.21 7.24 37.5%
1 iter.1588.49 7.30 37.8%
10 iter.1637.55 7.43 39.5%
cache inv. w/overlap 699.42 8.07 36.0%
1 iter. w/overlap1587.60 8.18 38.4%
10 iter. w/overlap1706.79 8.05 39.0%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 708.17 8.48 33.5%
1 iter.1637.44 8.46 39.3%
10 iter.1709.41 8.59 37.8%
cache inv. w/overlap 737.24 9.30 31.7%
1 iter. w/overlap1649.12 9.37 33.9%
10 iter. w/overlap1660.13 9.34 31.6%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 724.50 10.15 21.7%
1 iter.1652.03 10.33 13.0%
10 iter.1740.49 10.16 13.5%
cache inv. w/overlap 763.44 8.46 24.5%
1 iter. w/overlap1823.15 8.60 13.7%
10 iter. w/overlap1875.53 8.36 12.0%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 750.67 11.11 22.0%
1 iter.1682.28 11.55 14.8%
10 iter.1753.46 11.58 15.5%
cache inv. w/overlap 767.97 9.27 24.7%
1 iter. w/overlap1737.28 9.55 12.7%
10 iter. w/overlap1840.59 9.34 13.1%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 722.05 8.26 36.9%
1 iter.1551.03 8.81 34.0%
10 iter.1599.88 8.75 35.0%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 731.78 14.32 19.6%
1 iter.1506.11 14.64 16.8%
10 iter.1650.46 14.42 18.2%
cache inv. w/overlap 704.54 14.29 19.1%
1 iter. w/overlap1632.55 14.32 17.8%
10 iter. w/overlap1729.00 14.26 18.8%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 722.48 14.61 18.2%
1 iter.1555.44 14.74 17.5%
10 iter.1630.33 14.82 18.4%
cache inv. w/overlap 748.87 15.49 22.9%
1 iter. w/overlap1566.97 15.43 18.4%
10 iter. w/overlap1678.99 15.23 19.5%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 717.73 15.81 18.5%
1 iter.1652.03 15.63 19.7%
10 iter.1613.86 15.79 19.4%
cache inv. w/overlap 750.04 15.79 19.4%
1 iter. w/overlap1584.78 15.35 18.6%
10 iter. w/overlap1673.00 15.52 19.8%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 748.44 13.74 20.2%
1 iter.1640.31 14.23 17.8%
10 iter.1680.17 13.86 17.8%


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.3469e-02   1.3153e-05   19.46   0.68   0.59   1.45 
  256   7.0475e-03   1.3765e-05   37.20   0.65   0.57   1.38 
  512   4.0208e-03   1.5706e-05   65.20   0.55   0.48   1.17 
  1024   2.1973e-03   1.7167e-05   119.30   0.55   0.49   1.15 
  2048   1.3189e-03   2.0607e-05   198.76   0.47   0.42   0.94 
  4096   9.5411e-04   2.9816e-05   274.75   0.26   0.22   0.59 
  8192   7.8521e-04   4.9076e-05   333.85   0.19   0.21   0.27 
  16384   6.4057e-04   8.0072e-05   409.23   0.11   0.13   0.18 
  32768   5.6196e-04   1.4049e-04   466.48   0.04   0.05   0.12 
  65536   4.2879e-04   2.1439e-04   611.36   0.03   0.03   0.07 
  131072   3.3973e-04   3.3973e-04   771.62   0.04   0.04   0.07 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   3   6 
  256   0   2   1   3   6 
  512   0   2   1   3   6 
  1024   0   2   1   3   6 
  2048   0   2   1   3   6 
  4096   0   2   1   3   6 
  8192   4   5   0   10   2 
  16384   4   5   0   6   10 
  32768   5   4   10   9   8 
  65536   0   7   4   5   6 
  131072   5   0   10   3   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   3 
  256    1   1   3 
  512    1   1   4 
  1024    1   1   3 
  2048    1   1   4 
  4096    1   2   6 
  8192    1   1   9 
  16384    2   3   11 
  32768    3   8   11 
  65536    4   8   11 
  131072    2   9   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.3047e-02   1.2741e-05   20.09   0.72   0.61   1.50 
  256   6.6794e-03   1.3046e-05   39.25   0.69   0.57   1.49 
  512   3.4924e-03   1.3642e-05   75.06   0.68   0.62   1.40 
  1024   1.8893e-03   1.4760e-05   138.75   0.61   0.56   1.27 
  2048   1.0433e-03   1.6301e-05   251.27   0.56   0.49   1.14 
  4096   6.2132e-04   1.9416e-05   421.91   0.46   0.41   1.02 
  8192   5.5471e-04   3.4669e-05   472.58   0.16   0.16   0.28 
  16384   3.5823e-04   4.4778e-05   731.78   0.18   0.18   0.28 
  32768   2.7059e-04   6.7647e-05   968.80   0.12   0.14   0.18 
  65536   1.9148e-04   9.5740e-05   1369.04   0.07   0.07   0.11 
  131072   1.5488e-04   1.5488e-04   1692.56   0.11   0.12   0.18 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   3   6 
  256   0   2   1   3   6 
  512   0   2   1   6   3 
  1024   0   2   1   6   3 
  2048   0   2   1   6   3 
  4096   0   2   1   6   3 
  8192   4   5   0   1   2 
  16384   4   5   7   0   10 
  32768   4   5   10   1   8 
  65536   5   4   10   1   8 
  131072   4   9   5   10   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   3 
  256    1   1   3 
  512    1   1   3 
  1024    1   1   3 
  2048    1   1   3 
  4096    1   1   4 
  8192    2   2   10 
  16384    1   2   8 
  32768    1   1   11 
  65536    1   3   11 
  131072    1   2   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.3361e-02   1.3048e-05   19.62   0.68   0.57   1.44 
  256   6.6384e-03   1.2966e-05   39.49   0.71   0.60   1.48 
  512   3.4998e-03   1.3671e-05   74.90   0.66   0.59   1.41 
  1024   1.8619e-03   1.4546e-05   140.79   0.62   0.54   1.31 
  2048   1.0129e-03   1.5827e-05   258.80   0.58   0.51   1.21 
  4096   5.8816e-04   1.8380e-05   445.70   0.50   0.44   1.03 
  8192   5.0768e-04   3.1730e-05   516.36   0.24   0.27   0.36 
  16384   3.3414e-04   4.1768e-05   784.53   0.19   0.21   0.30 
  32768   2.4468e-04   6.1171e-05   1071.36   0.14   0.17   0.22 
  65536   1.7488e-04   8.7439e-05   1499.02   0.11   0.12   0.17 
  131072   1.4849e-04   1.4849e-04   1765.45   0.05   0.06   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   3   6 
  256   0   2   1   3   6 
  512   0   2   1   3   6 
  1024   0   2   1   3   6 
  2048   0   2   1   3   6 
  4096   0   2   1   3   6 
  8192   4   5   10   0   7 
  16384   4   5   10   0   7 
  32768   4   5   0   10   1 
  65536   4   5   10   0   7 
  131072   4   5   2   0   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   3 
  256    1   1   3 
  512    1   1   3 
  1024    1   1   3 
  2048    1   1   3 
  4096    1   1   4 
  8192    1   1   5 
  16384    1   1   8 
  32768    1   1   11 
  65536    1   1   11 
  131072    1   5   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.5348e-02   1.4988e-05   17.08   0.49   0.29   1.13 
  256   7.9892e-03   1.5604e-05   32.81   0.47   0.28   1.07 
  512   4.4140e-03   1.7242e-05   59.39   0.44   0.24   1.01 
  1024   2.4119e-03   1.8843e-05   108.69   0.42   0.26   0.93 
  2048   1.4976e-03   2.3400e-05   175.05   0.28   0.17   0.69 
  4096   9.3963e-04   2.9363e-05   278.99   0.27   0.16   0.63 
  8192   7.3341e-04   4.5838e-05   357.43   0.25   0.30   0.35 
  16384   6.0209e-04   7.5262e-05   435.39   0.15   0.18   0.24 
  32768   5.4436e-04   1.3609e-04   481.56   0.07   0.08   0.13 
  65536   4.0744e-04   2.0372e-04   643.39   0.08   0.09   0.13 
  131072   3.2740e-04   3.2740e-04   800.68   0.09   0.09   0.17 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   6 
  256   0   2   4   1   6 
  512   0   2   1   4   6 
  1024   0   2   4   1   3 
  2048   0   2   4   1   3 
  4096   0   2   4   6   1 
  8192   4   5   10   0   8 
  16384   4   5   0   7   8 
  32768   4   5   10   0   9 
  65536   4   5   0   8   9 
  131072   4   2   5   9   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   1   5 
  512    1   1   6 
  1024    1   1   4 
  2048    1   2   7 
  4096    1   1   7 
  8192    1   2   2 
  16384    1   2   11 
  32768    1   2   11 
  65536    1   2   11 
  131072    1   2   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.5024e-02   1.4672e-05   17.45   0.50   0.30   1.13 
  256   7.7095e-03   1.5058e-05   34.00   0.49   0.27   1.12 
  512   3.9441e-03   1.5407e-05   66.46   0.50   0.30   1.11 
  1024   2.1057e-03   1.6451e-05   124.49   0.45   0.24   1.02 
  2048   1.1531e-03   1.8017e-05   227.34   0.39   0.21   0.91 
  4096   6.5404e-04   2.0439e-05   400.81   0.37   0.22   0.86 
  8192   4.7203e-04   2.9502e-05   555.36   0.35   0.41   0.50 
  16384   3.2141e-04   4.0177e-05   815.60   0.24   0.28   0.32 
  32768   2.4612e-04   6.1530e-05   1065.11   0.17   0.21   0.29 
  65536   1.8039e-04   9.0193e-05   1453.23   0.12   0.11   0.24 
  131072   1.4863e-04   1.4863e-04   1763.78   0.10   0.09   0.21 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   6 
  256   0   2   1   4   6 
  512   0   2   6   1   4 
  1024   0   2   1   4   6 
  2048   0   1   2   4   6 
  4096   0   2   1   4   5 
  8192   4   5   0   10   1 
  16384   4   5   0   10   7 
  32768   5   4   0   3   1 
  65536   4   5   0   2   1 
  131072   4   5   10   3   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   6 
  2048    1   1   7 
  4096    1   1   6 
  8192    1   2   2 
  16384    1   2   3 
  32768    2   2   9 
  65536    1   2   11 
  131072    1   2   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.5055e-02   1.4703e-05   17.41   0.49   0.29   1.14 
  256   7.7359e-03   1.5109e-05   33.89   0.48   0.28   1.11 
  512   4.0035e-03   1.5639e-05   65.48   0.46   0.26   1.07 
  1024   2.1105e-03   1.6488e-05   124.21   0.43   0.25   1.01 
  2048   1.1372e-03   1.7769e-05   230.52   0.40   0.22   0.96 
  4096   6.3672e-04   1.9898e-05   411.71   0.39   0.24   0.88 
  8192   4.4114e-04   2.7571e-05   594.24   0.41   0.47   0.54 
  16384   2.9689e-04   3.7111e-05   882.98   0.31   0.35   0.43 
  32768   2.3344e-04   5.8359e-05   1122.98   0.18   0.20   0.26 
  65536   1.6766e-04   8.3831e-05   1563.52   0.15   0.18   0.22 
  131072   1.3667e-04   1.3667e-04   1918.11   0.12   0.13   0.17 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   4   1   6 
  256   0   2   1   4   6 
  512   0   2   4   1   6 
  1024   0   2   1   4   6 
  2048   0   2   1   4   6 
  4096   0   2   4   1   5 
  8192   4   5   7   1   0 
  16384   4   5   0   7   1 
  32768   4   5   10   1   7 
  65536   4   5   1   0   7 
  131072   4   5   10   3   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   6 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   1   2 
  16384    1   1   2 
  32768    1   2   9 
  65536    1   2   11 
  131072    1   2   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:21:38 EDT.
81108 accesses since 1/2/96.