COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 128KB message using MPI within a node)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
Communication Library: MPI
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 1, both on the same node
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 756.85 9.63 43.0%
1 iter.1585.68 9.62 43.8%
10 iter.1820.50 9.58 43.9%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 744.19 11.16 39.5%
1 iter.1626.88 10.92 42.2%
10 iter.1787.36 10.94 40.4%
cache inv. w/overlap 735.09 11.12 39.4%
1 iter. w/overlap1587.60 11.16 41.1%
10 iter. w/overlap1767.83 10.97 40.3%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 742.62 10.63 40.6%
1 iter.1517.86 10.48 40.9%
10 iter.1722.70 10.45 40.4%
cache inv. w/overlap 739.93 10.76 40.6%
1 iter. w/overlap1565.97 10.83 41.7%
10 iter. w/overlap1764.65 10.64 40.6%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 735.48 11.63 38.2%
1 iter.1527.88 11.76 41.1%
10 iter.1753.28 11.66 35.7%
cache inv. w/overlap 744.02 12.15 34.8%
1 iter. w/overlap1604.18 11.99 35.3%
10 iter. w/overlap1735.00 11.94 38.2%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 795.47 12.65 23.0%
1 iter.1807.72 12.39 17.1%
10 iter.2041.20 12.51 19.5%
cache inv. w/overlap 788.32 11.02 19.7%
1 iter. w/overlap1862.52 11.37 16.2%
10 iter. w/overlap2116.61 10.98 17.7%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 766.26 13.23 22.7%
1 iter.1732.84 13.34 17.6%
10 iter.2001.87 13.46 20.6%
cache inv. w/overlap 795.85 12.09 21.8%
1 iter. w/overlap1806.39 12.15 16.8%
10 iter. w/overlap2069.84 11.99 18.9%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 725.28 11.13 39.9%
1 iter.1597.66 11.09 42.6%
10 iter.1792.58 11.06 41.4%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 740.80 22.03 14.8%
1 iter.1570.48 22.28 26.7%
10 iter.1764.42 22.15 29.8%
cache inv. w/overlap 750.41 22.26 17.7%
1 iter. w/overlap1591.32 22.49 27.3%
10 iter. w/overlap1732.46 21.97 29.0%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 728.91 21.90 15.3%
1 iter.1611.67 21.87 26.9%
10 iter.1751.49 21.83 29.2%
cache inv. w/overlap 755.75 21.89 15.2%
1 iter. w/overlap1587.60 22.05 26.7%
10 iter. w/overlap1761.63 21.43 28.8%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 719.99 22.03 14.7%
1 iter.1544.08 22.29 26.3%
10 iter.1758.55 22.42 30.1%
cache inv. w/overlap 724.56 21.07 14.5%
1 iter. w/overlap1491.49 21.09 24.0%
10 iter. w/overlap1734.12 22.52 29.8%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 752.36 21.10 16.8%
1 iter.1579.43 21.05 25.4%
10 iter.1797.48 21.01 28.8%


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.0135e-02   1.9664e-05   13.02   0.56   0.30   1.27 
  256   1.0277e-02   2.0072e-05   25.51   0.55   0.29   1.26 
  512   5.5143e-03   2.1540e-05   47.54   0.51   0.27   1.16 
  1024   3.0091e-03   2.3509e-05   87.12   0.47   0.25   1.07 
  2048   1.6957e-03   2.6495e-05   154.60   0.44   0.25   0.97 
  4096   1.1058e-03   3.4555e-05   237.07   0.32   0.17   0.77 
  8192   8.6969e-04   5.4356e-05   301.42   0.29   0.34   0.38 
  16384   6.6960e-04   8.3700e-05   391.49   0.18   0.21   0.25 
  32768   5.5956e-04   1.3989e-04   468.48   0.11   0.13   0.15 
  65536   4.2945e-04   2.1473e-04   610.41   0.05   0.06   0.08 
  131072   3.3899e-04   3.3899e-04   773.32   0.04   0.04   0.06 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   6   3 
  256   0   1   2   6   3 
  512   0   2   1   6   3 
  1024   0   2   1   6   3 
  2048   0   2   6   1   3 
  4096   0   2   1   6   3 
  8192   4   5   10   0   2 
  16384   4   5   0   10   8 
  32768   4   5   0   10   7 
  65536   4   5   0   2   1 
  131072   4   5   2   10   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   5 
  2048    1   1   6 
  4096    1   1   6 
  8192    1   2   2 
  16384    1   2   10 
  32768    1   2   11 
  65536    1   3   11 
  131072    2   8   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.9892e-02   1.9426e-05   13.18   0.57   0.29   1.30 
  256   1.0042e-02   1.9614e-05   26.10   0.57   0.29   1.28 
  512   5.1398e-03   2.0077e-05   51.00   0.55   0.28   1.25 
  1024   2.6711e-03   2.0868e-05   98.14   0.53   0.27   1.19 
  2048   1.4269e-03   2.2295e-05   183.71   0.50   0.27   1.18 
  4096   7.8759e-04   2.4612e-05   332.84   0.45   0.23   1.04 
  8192   5.8140e-04   3.6338e-05   450.88   0.43   0.50   0.60 
  16384   3.8468e-04   4.8085e-05   681.46   0.32   0.39   0.44 
  32768   2.7287e-04   6.8217e-05   960.70   0.28   0.31   0.45 
  65536   1.9557e-04   9.7787e-05   1340.39   0.18   0.21   0.23 
  131072   1.5631e-04   1.5631e-04   1677.11   0.15   0.14   0.31 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   1   2   6   3 
  1024   0   2   1   6   3 
  2048   0   2   1   6   3 
  4096   0   1   2   6   3 
  8192   4   5   0   2   10 
  16384   4   5   0   10   2 
  32768   4   5   7   2   10 
  65536   4   5   10   0   9 
  131072   5   4   10   0   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   5 
  2048    1   1   5 
  4096    1   1   6 
  8192    1   2   2 
  16384    1   2   2 
  32768    1   1   2 
  65536    1   1   11 
  131072    1   2   9 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.9800e-02   1.9336e-05   13.24   0.58   0.30   1.31 
  256   9.9896e-03   1.9511e-05   26.24   0.57   0.30   1.29 
  512   5.0705e-03   1.9807e-05   51.70   0.56   0.29   1.27 
  1024   2.6118e-03   2.0405e-05   100.37   0.54   0.29   1.22 
  2048   1.3696e-03   2.1400e-05   191.40   0.52   0.28   1.17 
  4096   7.4801e-04   2.3375e-05   350.45   0.47   0.25   1.06 
  8192   5.3511e-04   3.3444e-05   489.89   0.44   0.53   0.59 
  16384   3.3975e-04   4.2469e-05   771.58   0.33   0.37   0.46 
  32768   2.2894e-04   5.7235e-05   1145.04   0.28   0.32   0.37 
  65536   1.5561e-04   7.7807e-05   1684.59   0.22   0.26   0.29 
  131072   1.2786e-04   1.2786e-04   2050.24   0.15   0.16   0.27 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   1   2   6   3 
  2048   0   2   1   6   3 
  4096   0   2   1   6   3 
  8192   4   5   10   0   3 
  16384   4   5   0   10   6 
  32768   4   5   0   10   2 
  65536   4   5   0   10   2 
  131072   4   5   0   10   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   2   5 
  2048    1   2   5 
  4096    1   1   5 
  8192    1   1   2 
  16384    1   2   2 
  32768    1   2   2 
  65536    1   2   4 
  131072    1   2   10 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.0214e-02   1.9740e-05   12.97   0.54   0.25   1.29 
  256   1.0343e-02   2.0201e-05   25.35   0.52   0.23   1.27 
  512   5.6525e-03   2.2080e-05   46.38   0.46   0.21   1.12 
  1024   3.0375e-03   2.3731e-05   86.30   0.42   0.16   1.01 
  2048   1.6812e-03   2.6269e-05   155.93   0.43   0.21   0.99 
  4096   1.1095e-03   3.4671e-05   236.28   0.29   0.13   0.71 
  8192   8.0553e-04   5.0346e-05   325.43   0.36   0.41   0.46 
  16384   6.3403e-04   7.9253e-05   413.46   0.22   0.26   0.30 
  32768   5.2257e-04   1.3064e-04   501.64   0.16   0.19   0.23 
  65536   4.1273e-04   2.0637e-04   635.14   0.08   0.10   0.12 
  131072   3.2275e-04   3.2275e-04   812.23   0.08   0.09   0.13 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   6   4   1 
  256   0   2   6   4   1 
  512   0   2   4   1   6 
  1024   0   2   1   4   6 
  2048   0   2   6   1   4 
  4096   0   2   6   1   4 
  8192   4   5   10   0   9 
  16384   4   5   10   0   9 
  32768   4   5   8   10   9 
  65536   4   5   2   0   10 
  131072   4   5   7   10   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   1   2 
  16384    1   2   5 
  32768    1   2   11 
  65536    1   2   11 
  131072    1   2   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.9967e-02   1.9499e-05   13.13   0.55   0.24   1.31 
  256   1.0105e-02   1.9737e-05   25.94   0.54   0.24   1.29 
  512   5.1883e-03   2.0267e-05   50.53   0.52   0.23   1.27 
  1024   2.6704e-03   2.0862e-05   98.17   0.51   0.23   1.22 
  2048   1.4134e-03   2.2084e-05   185.48   0.47   0.20   1.12 
  4096   7.9257e-04   2.4768e-05   330.75   0.40   0.13   0.94 
  8192   5.4864e-04   3.4290e-05   477.81   0.48   0.55   0.65 
  16384   3.6495e-04   4.5618e-05   718.31   0.37   0.44   0.49 
  32768   2.6851e-04   6.7127e-05   976.30   0.25   0.31   0.34 
  65536   1.8589e-04   9.2947e-05   1410.19   0.21   0.25   0.30 
  131072   1.4513e-04   1.4513e-04   1806.23   0.18   0.18   0.37 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   6   1   4 
  256   0   2   6   1   4 
  512   0   2   6   1   4 
  1024   0   2   6   1   4 
  2048   0   2   6   1   4 
  4096   0   2   1   6   4 
  8192   4   5   9   3   10 
  16384   4   5   0   10   8 
  32768   4   5   6   10   0 
  65536   4   5   0   2   8 
  131072   4   5   6   10   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   6 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   2   2 
  16384    1   2   2 
  32768    2   2   3 
  65536    1   1   6 
  131072    1   2   9 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.9909e-02   1.9443e-05   13.17   0.55   0.24   1.33 
  256   1.0056e-02   1.9640e-05   26.07   0.54   0.23   1.31 
  512   5.0826e-03   1.9854e-05   51.58   0.54   0.23   1.30 
  1024   2.6214e-03   2.0480e-05   100.00   0.52   0.22   1.26 
  2048   1.3724e-03   2.1444e-05   191.01   0.49   0.21   1.21 
  4096   7.4741e-04   2.3357e-05   350.74   0.42   0.14   1.00 
  8192   4.8401e-04   3.0251e-05   541.61   0.59   0.70   0.78 
  16384   3.0215e-04   3.7769e-05   867.58   0.45   0.51   0.63 
  32768   2.1668e-04   5.4170e-05   1209.83   0.33   0.39   0.43 
  65536   1.5085e-04   7.5425e-05   1737.77   0.24   0.29   0.31 
  131072   1.2601e-04   1.2601e-04   2080.38   0.16   0.19   0.23 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   6 
  256   0   2   1   4   6 
  512   0   2   1   6   4 
  1024   0   2   1   4   6 
  2048   0   2   1   4   6 
  4096   0   2   1   4   6 
  8192   4   5   0   10   8 
  16384   4   5   10   8   0 
  32768   4   5   10   0   2 
  65536   4   5   0   10   8 
  131072   4   5   10   7   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   1   2 
  16384    1   1   2 
  32768    1   2   2 
  65536    1   2   2 
  131072    2   2   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:21:31 EDT.
81620 accesses since 1/2/96.