COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(unordered swap of 128KB message using MPI between two nodes)

(performance measured per processor when all processors in node communicating)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 4
1 and 5
2 and 6
3 and 7
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered simple swap
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 36.78 89.83 72.9%
1 iter. 42.75 88.81 20.4%
10 iter. 44.70 88.19 23.4%

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 40.38 91.28 21.1%
1 iter. 43.82 90.64 21.3%
10 iter. 45.10 89.67 23.1%
cache inv. w/overlap 41.07 87.16 23.8%
1 iter. w/overlap 44.02 90.95 21.4%
10 iter. w/overlap 45.09 84.48 23.7%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 41.98 91.67 22.4%
1 iter. 40.57 89.53 18.9%
10 iter. 40.15 89.34 17.7%
cache inv. w/overlap 37.15 90.25 20.2%
1 iter. w/overlap 42.00 89.72 20.9%
10 iter. w/overlap 40.51 82.31 19.2%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 40.53 93.95 21.0%
1 iter. 39.99 96.70 22.8%
10 iter. 40.44 95.50 22.9%
cache inv. w/overlap 40.45 96.76 22.0%
1 iter. w/overlap 43.78 96.61 21.9%
10 iter. w/overlap 40.12 87.61 16.8%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 40.43 169.75 7.8%
1 iter. 45.22 169.02 6.2%
10 iter. 45.49 167.96 6.8%
cache inv. w/overlap 42.05 92.46 19.5%
1 iter. w/overlap 45.53 90.56 14.9%
10 iter. w/overlap 46.16 83.09 6.9%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 41.31 172.11 3.9%
1 iter. 45.66 174.08 6.9%
10 iter. 45.33 173.56 6.9%
cache inv. w/overlap 42.25 96.10 21.3%
1 iter. w/overlap 45.03 95.54 19.1%
10 iter. w/overlap 46.25 88.33 11.5%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 41.33 90.42 23.0%
1 iter. 44.05 88.82 24.5%
10 iter. 40.80 88.48 18.8%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 40.50 194.84 15.5%
1 iter. 44.60 194.80 16.0%
10 iter. 44.95 194.12 16.0%
cache inv. w/overlap 40.28 194.73 15.3%
1 iter. w/overlap 44.27 198.95 15.2%
10 iter. w/overlap 44.98 187.58 17.8%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 41.60 195.31 17.9%
1 iter. 44.36 200.39 17.3%
10 iter. 40.10 199.82 15.0%
cache inv. w/overlap 41.56 192.71 18.8%
1 iter. w/overlap 41.55 199.68 16.3%
10 iter. w/overlap 41.12 183.64 20.2%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 41.76 204.88 14.7%
1 iter. 40.53 208.10 13.4%
10 iter. 40.68 205.02 14.6%
cache inv. w/overlap 41.54 204.70 11.1%
1 iter. w/overlap 40.23 207.97 8.5%
10 iter. w/overlap 39.53 186.21 14.9%


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.3353e-02   9.1165e-05   2.81   0.59   0.92   1.39 
  256   4.7058e-02   9.1910e-05   5.57   0.64   0.96   1.50 
  512   2.5001e-02   9.7660e-05   10.49   0.66   0.92   1.63 
  1024   1.6560e-02   1.2937e-04   15.83   0.54   0.69   1.30 
  2048   1.1156e-02   1.7432e-04   23.50   0.41   0.54   0.94 
  4096   8.8513e-03   2.7660e-04   29.62   0.56   0.35   3.16 
  8192   8.5321e-03   5.3326e-04   30.72   0.15   0.19   0.24 
  16384   7.6530e-03   9.5662e-04   34.25   0.09   0.10   0.16 
  32768   7.2429e-03   1.8107e-03   36.19   0.06   0.07   0.13 
  65536   6.7501e-03   3.3751e-03   38.84   0.03   0.01   0.06 
  131072   6.2441e-03   6.2441e-03   41.98   0.04   0.04   0.18 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   0   2   1   3 
  256   6   2   1   0   3 
  512   0   1   3   6   2 
  1024   0   1   2   6   3 
  2048   2   1   6   0   3 
  4096   3   6   1   2   5 
  8192   4   5   3   2   1 
  16384   4   5   1   0   6 
  32768   4   5   7   1   0 
  65536   1   4   2   7   5 
  131072   2   9   8   6   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    4   5   5 
  256    3   5   5 
  512    4   5   5 
  1024    2   5   5 
  2048    1   4   5 
  4096    4   4   4 
  8192    1   2   10 
  16384    2   2   10 
  32768    3   5   10 
  65536    5   7   10 
  131072    3   9   10 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.3358e-02   9.1170e-05   2.81   0.58   0.90   1.36 
  256   4.7412e-02   9.2602e-05   5.53   0.60   0.92   1.41 
  512   2.5102e-02   9.8055e-05   10.44   0.63   0.90   1.55 
  1024   1.6320e-02   1.2750e-04   16.06   0.55   0.73   1.34 
  2048   1.1230e-02   1.7547e-04   23.34   0.37   0.49   0.93 
  4096   8.2443e-03   2.5763e-04   31.80   0.27   0.36   0.67 
  8192   7.9746e-03   4.9841e-04   32.87   0.17   0.21   0.22 
  16384   6.7333e-03   8.4166e-04   38.93   0.12   0.16   0.20 
  32768   6.4728e-03   1.6182e-03   40.50   0.08   0.10   0.14 
  65536   6.0181e-03   3.0090e-03   43.56   0.07   0.09   0.16 
  131072   5.7406e-03   5.7406e-03   45.66   0.06   0.04   0.14 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   0   2   1   3 
  256   1   6   2   0   3 
  512   0   1   6   2   3 
  1024   1   6   2   0   3 
  2048   2   1   3   6   0 
  4096   2   1   6   0   3 
  8192   5   4   1   7   0 
  16384   4   5   1   7   0 
  32768   4   5   1   7   0 
  65536   4   5   7   1   0 
  131072   5   4   7   8   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    4   5   5 
  256    2   5   5 
  512    4   5   5 
  1024    1   5   5 
  2048    5   5   5 
  4096    3   5   5 
  8192    1   2   10 
  16384    1   2   10 
  32768    1   2   10 
  65536    1   5   10 
  131072    2   6   10 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.2903e-02   9.0725e-05   2.82   0.58   0.90   1.37 
  256   4.7601e-02   9.2970e-05   5.51   0.59   0.90   1.42 
  512   2.5046e-02   9.7837e-05   10.47   0.62   0.90   1.52 
  1024   1.6437e-02   1.2841e-04   15.95   0.54   0.72   1.33 
  2048   1.1138e-02   1.7403e-04   23.54   0.37   0.47   0.93 
  4096   7.9620e-03   2.4881e-04   32.92   0.30   0.40   0.71 
  8192   8.0904e-03   5.0565e-04   32.40   0.15   0.19   0.20 
  16384   6.6530e-03   8.3162e-04   39.40   0.11   0.13   0.17 
  32768   6.3753e-03   1.5938e-03   41.12   0.09   0.14   0.16 
  65536   6.0107e-03   3.0053e-03   43.61   0.08   0.13   0.16 
  131072   5.7622e-03   5.7622e-03   45.49   0.07   0.12   0.13 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   0   2   1   3 
  256   6   1   2   0   3 
  512   2   0   6   1   3 
  1024   2   6   1   0   3 
  2048   0   1   6   2   3 
  4096   1   0   2   3   6 
  8192   4   5   1   7   0 
  16384   4   5   7   1   0 
  32768   5   4   7   1   0 
  65536   5   4   1   7   0 
  131072   4   5   1   7   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    4   5   5 
  256    4   5   5 
  512    5   5   5 
  1024    3   5   5 
  2048    5   5   5 
  4096    2   5   5 
  8192    1   2   10 
  16384    2   2   10 
  32768    2   3   10 
  65536    2   5   10 
  131072    3   5   10 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.2590e-02   9.0420e-05   2.83   0.42   0.05   1.36 
  256   4.7492e-02   9.2758e-05   5.52   0.43   0.01   1.44 
  512   2.4980e-02   9.7577e-05   10.49   0.47   0.03   1.58 
  1024   1.6782e-02   1.3111e-04   15.62   0.37   0.03   1.27 
  2048   1.1468e-02   1.7919e-04   22.86   0.27   0.02   0.89 
  4096   8.6690e-03   2.7091e-04   30.24   0.21   0.04   0.63 
  8192   7.2257e-03   4.5161e-04   36.28   0.34   0.41   0.46 
  16384   6.2050e-03   7.7562e-04   42.25   0.31   0.36   0.41 
  32768   6.5830e-03   1.6457e-03   39.82   0.15   0.16   0.22 
  65536   6.2623e-03   3.1312e-03   41.86   0.10   0.13   0.16 
  131072   6.2253e-03   6.2253e-03   42.11   0.06   0.03   0.26 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   1   2   6   4   0 
  256   2   4   3   6   5 
  512   1   4   6   2   5 
  1024   1   0   2   4   6 
  2048   6   5   4   2   1 
  4096   1   2   3   4   6 
  8192   5   4   7   6   8 
  16384   5   4   7   1   6 
  32768   5   4   1   7   0 
  65536   0   4   1   5   7 
  131072   5   4   6   8   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   6   7 
  256    7   7   7 
  512    4   7   7 
  1024    3   7   7 
  2048    5   7   7 
  4096    1   6   7 
  8192    1   2   2 
  16384    1   1   2 
  32768    1   2   10 
  65536    1   3   10 
  131072    3   8   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.4395e-02   9.2182e-05   2.78   0.39   0.04   1.31 
  256   4.7637e-02   9.3041e-05   5.50   0.41   0.02   1.34 
  512   2.5132e-02   9.8170e-05   10.43   0.43   0.01   1.45 
  1024   1.6589e-02   1.2960e-04   15.80   0.38   0.02   1.30 
  2048   1.1152e-02   1.7425e-04   23.51   0.28   0.02   0.92 
  4096   8.0988e-03   2.5309e-04   32.37   0.22   0.04   0.70 
  8192   6.6368e-03   4.1480e-04   39.50   0.36   0.44   0.49 
  16384   6.1177e-03   7.6471e-04   42.85   0.20   0.26   0.30 
  32768   6.0778e-03   1.5194e-03   43.13   0.14   0.19   0.23 
  65536   5.9396e-03   2.9698e-03   44.14   0.08   0.08   0.17 
  131072   5.7573e-03   5.7573e-03   45.53   0.06   0.07   0.14 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   2   0   6   1   4 
  256   6   1   0   2   3 
  512   2   0   4   3   6 
  1024   0   4   6   5   1 
  2048   1   2   4   3   5 
  4096   0   2   5   4   6 
  8192   4   5   1   3   9 
  16384   5   4   1   0   7 
  32768   4   5   1   7   0 
  65536   4   5   7   1   0 
  131072   4   5   7   1   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    5   7   7 
  256    1   7   7 
  512    6   7   7 
  1024    3   7   7 
  2048    4   7   7 
  4096    1   7   7 
  8192    1   2   2 
  16384    2   2   5 
  32768    2   2   10 
  65536    2   2   10 
  131072    1   5   10 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   8.8911e-02   8.6827e-05   2.95   0.40   0.05   1.26 
  256   4.6770e-02   9.1347e-05   5.61   0.39   0.03   1.26 
  512   2.4920e-02   9.7343e-05   10.52   0.41   0.02   1.35 
  1024   1.6559e-02   1.2937e-04   15.83   0.37   0.01   1.26 
  2048   1.1121e-02   1.7376e-04   23.57   0.27   0.01   0.91 
  4096   7.8817e-03   2.4630e-04   33.26   0.23   0.04   0.73 
  8192   6.4933e-03   4.0583e-04   40.37   0.37   0.47   0.48 
  16384   6.1270e-03   7.6588e-04   42.78   0.19   0.26   0.27 
  32768   6.0201e-03   1.5050e-03   43.55   0.15   0.21   0.25 
  65536   5.8234e-03   2.9117e-03   45.02   0.11   0.17   0.20 
  131072   5.6685e-03   5.6685e-03   46.25   0.08   0.12   0.17 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   2   4   1   0   3 
  256   2   1   4   6   0 
  512   2   1   6   4   0 
  1024   0   3   6   2   4 
  2048   1   4   6   0   2 
  4096   2   6   5   3   4 
  8192   5   4   1   7   0 
  16384   4   5   1   0   7 
  32768   4   5   1   7   0 
  65536   4   5   0   1   7 
  131072   5   4   1   7   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   6   7 
  256    1   7   7 
  512    3   7   7 
  1024    4   7   7 
  2048    7   7   7 
  4096    2   7   7 
  8192    1   2   2 
  16384    2   2   5 
  32768    2   2   10 
  65536    2   2   10 
  131072    2   5   10 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:43 EDT.
86865 accesses since 1/2/96.