COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(unordered swap of 128KB message using MPI within a node)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 1
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered simple swap
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 153.20 12.20 18.4%
1 iter. 339.23 12.40 13.5%
10 iter. 338.23 12.45 13.4%

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 186.45 12.66 15.5%
1 iter. 360.20 13.06 16.3%
10 iter. 386.97 12.93 11.5%
cache inv. w/overlap 179.19 12.76 14.2%
1 iter. w/overlap 377.19 13.40 10.9%
10 iter. w/overlap 377.12 13.14 12.3%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 190.28 12.03 18.5%
1 iter. 380.04 12.05 18.3%
10 iter. 406.24 12.06 17.6%
cache inv. w/overlap 188.36 12.24 16.6%
1 iter. w/overlap 391.94 12.50 14.5%
10 iter. w/overlap 429.80 12.33 19.9%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 187.43 13.75 18.2%
1 iter. 387.93 13.77 18.3%
10 iter. 429.18 13.81 21.9%
cache inv. w/overlap 183.05 14.15 15.1%
1 iter. w/overlap 371.95 14.44 19.8%
10 iter. w/overlap 417.35 14.07 21.9%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 186.42 20.96 5.1%
1 iter. 422.67 21.39 13.8%
10 iter. 399.64 22.24 17.4%
cache inv. w/overlap 187.96 12.43 2.4%
1 iter. w/overlap 445.76 12.85 11.8%
10 iter. w/overlap 455.85 12.51 11.8%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 182.73 23.34 2.7%
1 iter. 380.92 23.82 18.0%
10 iter. 387.19 23.93 20.7%
cache inv. w/overlap 189.23 13.98 2.7%
1 iter. w/overlap 416.31 14.35 13.5%
10 iter. w/overlap 460.35 14.08 6.2%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 187.95 11.64 17.3%
1 iter. 423.54 11.86 20.5%
10 iter. 418.77 11.75 17.3%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 184.50 26.37 4.3%
1 iter. 374.09 26.47 17.5%
10 iter. 377.89 27.98 20.7%
cache inv. w/overlap 183.11 27.09 4.7%
1 iter. w/overlap 373.81 27.62 16.1%
10 iter. w/overlap 380.56 27.80 13.5%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 185.95 30.42 3.4%
1 iter. 367.24 33.05 23.0%
10 iter. 427.56 32.00 10.1%
cache inv. w/overlap 183.52 32.04 2.2%
1 iter. w/overlap 378.40 34.39 23.4%
10 iter. w/overlap 432.20 30.81 8.3%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 188.61 31.84 3.5%
1 iter. 411.17 32.65 10.2%
10 iter. 420.93 33.48 11.5%
cache inv. w/overlap 186.23 34.04 4.8%
1 iter. w/overlap 405.49 36.97 14.6%
10 iter. w/overlap 431.96 37.26 13.6%


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.3494e-02   1.3178e-05   19.43   0.60   0.74   1.54 
  256   7.5332e-03   1.4713e-05   34.80   0.54   0.69   1.38 
  512   4.3813e-03   1.7114e-05   59.83   0.47   0.57   1.18 
  1024   2.8287e-03   2.2099e-05   92.67   0.37   0.47   0.94 
  2048   2.0841e-03   3.2565e-05   125.78   0.27   0.34   0.68 
  4096   1.7301e-03   5.4066e-05   151.52   0.18   0.24   0.44 
  8192   1.8360e-03   1.1475e-04   142.78   0.04   0.04   0.08 
  16384   1.5922e-03   1.9903e-04   164.64   0.05   0.05   0.11 
  32768   1.5056e-03   3.7641e-04   174.11   0.03   0.02   0.14 
  65536   1.4367e-03   7.1835e-04   182.46   0.03   0.01   0.20 
  131072   1.3777e-03   1.3777e-03   190.28   0.05   0.02   0.31 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   0   1   3 
  256   6   2   0   1   3 
  512   2   6   1   0   3 
  1024   6   2   0   1   3 
  2048   1   6   0   2   3 
  4096   1   6   0   2   3 
  8192   4   5   1   7   6 
  16384   4   5   2   7   6 
  32768   4   2   5   6   9 
  65536   4   6   5   9   7 
  131072   2   9   6   3   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   3   5 
  256    1   3   5 
  512    2   3   5 
  1024    1   4   5 
  2048    2   4   5 
  4096    1   4   7 
  8192    1   7   10 
  16384    1   5   10 
  32768    2   9   10 
  65536    6   9   10 
  131072    2   9   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.2586e-02   1.2291e-05   20.83   0.68   0.82   1.76 
  256   6.5117e-03   1.2718e-05   40.26   0.67   0.83   1.75 
  512   3.5368e-03   1.3816e-05   74.12   0.61   0.73   1.58 
  1024   2.0354e-03   1.5902e-05   128.79   0.55   0.66   1.36 
  2048   1.2738e-03   1.9904e-05   205.79   0.43   0.50   1.07 
  4096   8.8628e-04   2.7696e-05   295.78   0.33   0.39   0.78 
  8192   8.6681e-04   5.4176e-05   302.42   0.15   0.17   0.25 
  16384   7.3894e-04   9.2367e-05   354.76   0.07   0.08   0.15 
  32768   6.2021e-04   1.5505e-04   422.67   0.14   0.15   0.25 
  65536   6.3755e-04   3.1878e-04   411.17   0.12   0.11   0.33 
  131072   6.1894e-04   6.1894e-04   423.54   0.15   0.15   0.41 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   0   1   3 
  256   6   2   0   1   3 
  512   6   2   1   0   3 
  1024   6   2   1   3   0 
  2048   6   2   3   1   0 
  4096   6   2   3   1   0 
  8192   4   5   1   0   7 
  16384   4   5   2   7   3 
  32768   4   3   5   2   7 
  65536   9   3   4   2   5 
  131072   6   4   3   5   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   2   5 
  256    1   2   5 
  512    1   2   5 
  1024    1   2   5 
  2048    2   2   5 
  4096    1   2   5 
  8192    1   1   9 
  16384    2   3   10 
  32768    1   1   10 
  65536    1   1   9 
  131072    1   1   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.2542e-02   1.2248e-05   20.90   0.70   0.85   1.81 
  256   6.5270e-03   1.2748e-05   40.16   0.67   0.81   1.77 
  512   3.5065e-03   1.3697e-05   74.76   0.63   0.76   1.65 
  1024   2.0023e-03   1.5643e-05   130.92   0.56   0.66   1.43 
  2048   1.2683e-03   1.9817e-05   206.69   0.44   0.52   1.13 
  4096   8.7899e-04   2.7468e-05   298.23   0.33   0.37   0.83 
  8192   8.6210e-04   5.3881e-05   304.08   0.14   0.18   0.23 
  16384   7.1202e-04   8.9003e-05   368.17   0.09   0.10   0.18 
  32768   6.5596e-04   1.6399e-04   399.64   0.07   0.06   0.18 
  65536   6.8418e-04   3.4209e-04   383.15   0.04   0.02   0.18 
  131072   6.1081e-04   6.1081e-04   429.18   0.09   0.11   0.31 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   0   1   3 
  256   6   2   0   1   3 
  512   6   2   0   1   3 
  1024   6   2   1   3   0 
  2048   6   2   3   1   0 
  4096   6   2   3   1   0 
  8192   4   5   1   7   6 
  16384   4   5   1   7   6 
  32768   4   6   5   8   7 
  65536   1   6   2   4   5 
  131072   3   8   9   6   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   2   5 
  256    1   2   5 
  512    1   2   5 
  1024    1   2   5 
  2048    2   2   5 
  4096    2   2   5 
  8192    1   2   10 
  16384    1   2   10 
  32768    1   4   10 
  65536    2   9   10 
  131072    2   4   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.3664e-02   1.3343e-05   19.19   0.49   0.17   1.71 
  256   7.6230e-03   1.4889e-05   34.39   0.45   0.15   1.58 
  512   4.3624e-03   1.7041e-05   60.09   0.40   0.13   1.36 
  1024   2.9402e-03   2.2970e-05   89.16   0.28   0.07   1.02 
  2048   2.1344e-03   3.3349e-05   122.82   0.21   0.07   0.76 
  4096   1.7447e-03   5.4521e-05   150.25   0.14   0.05   0.41 
  8192   1.5829e-03   9.8930e-05   165.61   0.19   0.23   0.25 
  16384   1.4910e-03   1.8637e-04   175.82   0.12   0.14   0.19 
  32768   1.4363e-03   3.5907e-04   182.52   0.08   0.09   0.19 
  65536   1.4078e-03   7.0388e-04   186.21   0.05   0.04   0.21 
  131072   1.3853e-03   1.3853e-03   189.23   0.05   0.03   0.34 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   4   0   1 
  256   6   2   0   4   1 
  512   6   2   4   0   1 
  1024   4   6   2   0   1 
  2048   6   1   4   2   0 
  4096   1   4   0   6   2 
  8192   4   5   2   6   1 
  16384   4   5   2   8   6 
  32768   4   5   2   9   8 
  65536   4   5   2   9   6 
  131072   5   2   4   9   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   3   7 
  256    1   4   7 
  512    1   3   7 
  1024    2   4   7 
  2048    2   5   7 
  4096    1   6   7 
  8192    1   2   9 
  16384    1   2   10 
  32768    1   2   10 
  65536    2   6   10 
  131072    3   8   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.2778e-02   1.2479e-05   20.52   0.57   0.19   1.97 
  256   6.6702e-03   1.3028e-05   39.30   0.54   0.18   1.86 
  512   3.5538e-03   1.3882e-05   73.76   0.53   0.19   1.81 
  1024   2.0817e-03   1.6263e-05   125.93   0.44   0.15   1.45 
  2048   1.2910e-03   2.0171e-05   203.06   0.36   0.12   1.19 
  4096   8.8606e-04   2.7689e-05   295.85   0.28   0.14   0.82 
  8192   7.2500e-04   4.5312e-05   361.58   0.34   0.40   0.50 
  16384   6.2447e-04   7.8059e-05   419.79   0.26   0.31   0.46 
  32768   6.7436e-04   1.6859e-04   388.73   0.08   0.07   0.23 
  65536   5.8808e-04   2.9404e-04   445.76   0.16   0.19   0.31 
  131072   6.8064e-04   6.8064e-04   385.14   0.06   0.05   0.26 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   0   4   1 
  256   6   2   0   4   1 
  512   6   2   4   0   1 
  1024   6   2   4   0   5 
  2048   6   2   4   0   5 
  4096   6   4   2   3   5 
  8192   4   5   7   1   0 
  16384   4   5   6   8   2 
  32768   5   4   1   7   2 
  65536   4   5   9   2   8 
  131072   2   4   5   1   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   3   7 
  256    1   3   7 
  512    1   2   7 
  1024    1   2   7 
  2048    2   3   7 
  4096    1   1   7 
  8192    1   1   2 
  16384    1   1   3 
  32768    2   3   10 
  65536    1   1   9 
  131072    3   6   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.2734e-02   1.2435e-05   20.59   0.54   0.18   1.95 
  256   6.6121e-03   1.2914e-05   39.65   0.52   0.17   1.80 
  512   3.5392e-03   1.3825e-05   74.07   0.49   0.16   1.73 
  1024   2.0210e-03   1.5789e-05   129.71   0.43   0.14   1.45 
  2048   1.2722e-03   1.9878e-05   206.06   0.34   0.12   1.11 
  4096   8.8904e-04   2.7783e-05   294.86   0.25   0.12   0.78 
  8192   7.3455e-04   4.5910e-05   356.88   0.33   0.39   0.49 
  16384   6.7413e-04   8.4266e-05   388.86   0.18   0.21   0.28 
  32768   6.4493e-04   1.6123e-04   406.47   0.12   0.14   0.24 
  65536   5.6945e-04   2.8472e-04   460.35   0.21   0.22   0.39 
  131072   6.0653e-04   6.0653e-04   432.20   0.08   0.08   0.29 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   4   0   1 
  256   6   2   4   0   1 
  512   6   2   4   0   1 
  1024   6   2   4   0   1 
  2048   6   2   4   5   3 
  4096   6   2   4   5   3 
  8192   4   5   1   7   2 
  16384   4   5   1   7   2 
  32768   4   5   1   7   2 
  65536   5   4   2   1   3 
  131072   8   9   5   2   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   3   7 
  256    1   2   7 
  512    1   3   7 
  1024    1   3   7 
  2048    1   3   7 
  4096    1   3   7 
  8192    1   2   2 
  16384    2   2   8 
  32768    1   2   10 
  65536    2   2   7 
  131072    4   5   9 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:07 EDT.
86367 accesses since 1/2/96.