COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(ordered swap of 8KB message using MPI between two nodes)

(performance measured per processor when all processors in node communicating)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 4
1 and 5
2 and 6
3 and 7
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 19.51 43.52 28.9%
1 iter. 24.94 44.11 26.9%
10 iter. 24.67 44.03 26.5%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 17.75 47.27 27.4%
1 iter. 23.19 49.07 27.8%
10 iter. 24.23 50.08 29.6%
cache inv. w/overlap 16.29 57.72 22.9%
1 iter. w/overlap 23.16 56.50 31.9%
10 iter. w/overlap 24.12 47.11 27.7%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 18.11 47.45 25.6%
1 iter. 24.14 50.20 29.6%
10 iter. 24.29 49.86 29.6%
cache inv. w/overlap 18.28 55.27 24.7%
1 iter. w/overlap 23.07 56.95 32.1%
10 iter. w/overlap 24.99 46.65 28.5%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 17.51 55.43 23.7%
1 iter. 23.13 55.54 31.4%
10 iter. 24.20 57.83 34.2%
cache inv. w/overlap 16.90 61.48 25.4%
1 iter. w/overlap 23.21 65.35 37.0%
10 iter. w/overlap 24.29 49.99 29.6%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 16.25 77.59 30.2%
1 iter. 23.26 78.16 22.2%
10 iter. 29.66 78.15 28.3%
cache inv. w/overlap 18.51 56.16 19.6%
1 iter. w/overlap 29.52 58.16 21.0%
10 iter. w/overlap 31.92 47.77 24.6%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 16.97 78.96 21.7%
1 iter. 25.28 78.74 24.3%
10 iter. 30.23 78.80 29.1%
cache inv. w/overlap 18.27 62.20 27.8%
1 iter. w/overlap 30.35 63.86 23.7%
10 iter. w/overlap 31.73 49.24 23.5%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 16.59 62.41 25.3%
1 iter. 22.54 58.57 32.2%
10 iter. 23.29 60.18 34.2%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 15.06 134.55 24.7%
1 iter. 19.66 136.10 32.7%
10 iter. 21.53 135.96 35.7%
cache inv. w/overlap 14.01 136.02 23.3%
1 iter. w/overlap 19.55 138.61 33.1%
10 iter. w/overlap 21.53 136.03 35.7%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 15.24 135.34 25.2%
1 iter. 20.56 135.67 34.0%
10 iter. 21.93 136.56 36.6%
cache inv. w/overlap 15.15 142.39 26.3%
1 iter. w/overlap 19.22 139.53 32.7%
10 iter. w/overlap 21.40 133.70 34.9%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 15.36 138.47 26.0%
1 iter. 21.08 142.78 36.7%
10 iter. 21.80 141.78 37.7%
cache inv. w/overlap 15.10 149.31 29.2%
1 iter. w/overlap 21.13 151.35 39.0%
10 iter. w/overlap 21.70 135.09 35.8%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 17.47 130.50 27.8%
1 iter. 20.91 131.46 33.6%
10 iter. 21.70 131.31 34.8%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.0191e-02   8.8078e-05   0.18   0.99   0.77   2.19 
  16   4.5627e-02   8.9116e-05   0.36   1.00   0.76   2.19 
  32   2.3333e-02   9.1144e-05   0.70   0.99   0.74   2.16 
  64   1.2079e-02   9.4366e-05   1.36   0.97   0.72   2.12 
  128   8.7383e-03   1.3654e-04   1.87   0.54   0.26   1.35 
  256   5.0978e-03   1.5931e-04   3.21   0.45   0.12   1.20 
  512   2.6732e-03   1.6707e-04   6.13   0.51   0.16   1.33 
  1024   1.6990e-03   2.1238e-04   9.64   0.45   0.14   1.16 
  2048   1.1164e-03   2.7910e-04   14.68   0.36   0.15   0.87 
  4096   8.3979e-04   4.1989e-04   19.51   0.32   0.21   0.71 
  8192   9.3777e-04   9.3777e-04   17.47   0.16   0.16   0.33 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   3   6 
  16   0   2   1   3   6 
  32   0   2   1   3   6 
  64   0   2   1   3   6 
  128   0   2   1   3   6 
  256   0   3   2   1   6 
  512   0   3   2   1   6 
  1024   0   2   1   3   6 
  2048   3   1   2   0   6 
  4096   0   2   1   3   6 
  8192   10   5   4   9   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   3 
  16    1   1   3 
  32    1   1   3 
  64    1   1   2 
  128    1   1   5 
  256    2   4   7 
  512    1   3   7 
  1024    1   4   7 
  2048    1   3   7 
  4096    1   1   6 
  8192    1   2   8 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.0235e-02   8.8120e-05   0.18   0.99   0.78   2.25 
  16   4.5065e-02   8.8017e-05   0.36   1.01   0.78   2.27 
  32   2.2645e-02   8.8458e-05   0.72   1.02   0.78   2.26 
  64   1.1389e-02   8.8973e-05   1.44   1.04   0.77   2.31 
  128   6.1390e-03   9.5923e-05   2.67   1.03   0.78   2.20 
  256   3.6847e-03   1.1515e-04   4.45   0.77   0.51   1.73 
  512   2.5200e-03   1.5750e-04   6.50   0.43   0.17   1.10 
  1024   1.6288e-03   2.0360e-04   10.06   0.44   0.11   1.17 
  2048   9.8191e-04   2.4548e-04   16.69   0.40   0.15   1.07 
  4096   6.5681e-04   3.2840e-04   24.94   0.38   0.25   0.88 
  8192   6.4809e-04   6.4809e-04   25.28   0.20   0.21   0.30 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   3   6 
  16   0   2   1   3   6 
  32   0   2   1   3   6 
  64   0   1   2   3   6 
  128   0   1   2   3   6 
  256   0   1   2   3   6 
  512   0   3   1   2   6 
  1024   0   3   1   2   6 
  2048   2   0   3   1   6 
  4096   0   2   1   3   6 
  8192   5   4   9   2   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   3 
  16    1   1   3 
  32    1   1   3 
  64    1   1   3 
  128    1   1   1 
  256    1   1   3 
  512    1   4   7 
  1024    1   4   7 
  2048    1   4   7 
  4096    1   2   6 
  8192    1   1   9 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.0064e-02   8.7953e-05   0.18   1.00   0.77   2.23 
  16   4.4973e-02   8.7837e-05   0.36   1.00   0.77   2.24 
  32   2.2532e-02   8.8017e-05   0.73   1.01   0.78   2.24 
  64   1.1266e-02   8.8019e-05   1.45   1.04   0.78   2.27 
  128   6.0158e-03   9.3997e-05   2.72   1.05   0.79   2.22 
  256   3.4712e-03   1.0848e-04   4.72   0.84   0.59   1.86 
  512   2.4622e-03   1.5389e-04   6.65   0.41   0.17   1.12 
  1024   1.5823e-03   1.9779e-04   10.35   0.43   0.10   1.15 
  2048   9.5104e-04   2.3776e-04   17.23   0.39   0.06   1.04 
  4096   6.6415e-04   3.3207e-04   24.67   0.29   0.06   0.75 
  8192   5.4190e-04   5.4190e-04   30.23   0.33   0.39   0.43 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   3   6 
  16   0   2   1   3   6 
  32   0   2   1   3   6 
  64   0   2   1   3   6 
  128   0   1   2   3   6 
  256   0   1   2   3   6 
  512   0   1   2   3   6 
  1024   0   6   2   1   3 
  2048   1   0   3   2   6 
  4096   0   2   1   3   5 
  8192   5   4   8   3   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   3 
  16    1   1   3 
  32    1   1   3 
  64    1   1   3 
  128    1   1   1 
  256    1   1   1 
  512    1   4   7 
  1024    3   5   7 
  2048    3   5   7 
  4096    1   4   7 
  8192    1   2   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.0912e-02   8.8781e-05   0.18   0.98   0.43   2.39 
  16   4.5863e-02   8.9576e-05   0.36   0.98   0.44   2.39 
  32   2.2989e-02   8.9800e-05   0.71   1.03   0.52   2.44 
  64   1.2208e-02   9.5372e-05   1.34   0.98   0.51   2.25 
  128   9.1396e-03   1.4281e-04   1.79   0.51   0.10   1.37 
  256   5.0485e-03   1.5777e-04   3.25   0.47   0.04   1.28 
  512   2.6864e-03   1.6790e-04   6.10   0.51   0.05   1.37 
  1024   1.6703e-03   2.0879e-04   9.81   0.47   0.05   1.26 
  2048   1.0783e-03   2.6957e-04   15.19   0.39   0.14   1.00 
  4096   8.7245e-04   4.3622e-04   18.78   0.26   0.11   0.69 
  8192   8.8532e-04   8.8532e-04   18.51   0.19   0.22   0.36 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   4   1   3 
  16   0   2   1   4   5 
  32   0   2   1   4   5 
  64   0   2   1   4   5 
  128   0   2   5   1   4 
  256   0   4   3   2   5 
  512   0   3   4   5   1 
  1024   0   2   4   5   3 
  2048   0   5   4   3   2 
  4096   0   2   5   4   6 
  8192   4   5   10   0   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   1 
  16    1   1   1 
  32    1   1   1 
  64    1   1   1 
  128    1   1   7 
  256    1   6   7 
  512    1   5   7 
  1024    1   5   7 
  2048    1   1   7 
  4096    1   3   7 
  8192    1   2   8 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.0301e-02   8.8184e-05   0.18   1.00   0.46   2.44 
  16   4.5207e-02   8.8295e-05   0.36   1.00   0.47   2.44 
  32   2.2885e-02   8.9395e-05   0.72   1.00   0.48   2.42 
  64   1.1384e-02   8.8939e-05   1.44   1.02   0.53   2.43 
  128   6.7956e-03   1.0618e-04   2.41   0.87   0.45   2.06 
  256   4.1321e-03   1.2913e-04   3.97   0.64   0.23   1.63 
  512   2.5701e-03   1.6063e-04   6.37   0.44   0.06   1.22 
  1024   1.6477e-03   2.0596e-04   9.94   0.42   0.03   1.13 
  2048   9.8277e-04   2.4569e-04   16.67   0.40   0.06   1.03 
  4096   6.8468e-04   3.4234e-04   23.93   0.33   0.09   0.84 
  8192   5.3989e-04   5.3989e-04   30.35   0.42   0.47   0.65 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   4   6 
  16   0   1   2   4   6 
  32   0   1   2   4   6 
  64   0   2   4   1   3 
  128   0   2   1   4   6 
  256   0   1   4   2   3 
  512   0   2   1   4   3 
  1024   0   2   4   5   3 
  2048   0   4   2   1   3 
  4096   4   3   0   1   2 
  8192   5   4   2   3   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   1 
  16    1   1   1 
  32    1   1   1 
  64    1   1   1 
  128    1   1   1 
  256    1   1   7 
  512    1   4   7 
  1024    2   6   7 
  2048    1   4   7 
  4096    1   5   7 
  8192    1   2   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.0225e-02   8.8110e-05   0.18   0.82   0.13   2.07 
  16   4.5116e-02   8.8117e-05   0.36   0.82   0.14   2.07 
  32   2.2607e-02   8.8310e-05   0.72   0.83   0.16   2.08 
  64   1.1347e-02   8.8646e-05   1.44   0.84   0.19   2.08 
  128   6.2846e-03   9.8196e-05   2.61   0.84   0.42   1.90 
  256   3.6398e-03   1.1374e-04   4.50   0.72   0.32   1.72 
  512   2.4423e-03   1.5264e-04   6.71   0.40   0.05   1.17 
  1024   1.5798e-03   1.9747e-04   10.37   0.42   0.03   1.16 
  2048   9.4784e-04   2.3696e-04   17.29   0.40   0.03   1.06 
  4096   6.5553e-04   3.2777e-04   24.99   0.30   0.04   0.78 
  8192   5.1336e-04   5.1336e-04   31.92   0.39   0.47   0.49 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   4   5 
  16   0   2   1   4   3 
  32   0   2   1   4   3 
  64   0   2   1   4   3 
  128   0   2   1   4   5 
  256   0   2   1   4   5 
  512   0   1   2   4   3 
  1024   0   1   2   4   3 
  2048   2   0   1   5   4 
  4096   2   4   3   5   1 
  8192   4   5   0   2   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   6 
  16    1   1   6 
  32    1   1   6 
  64    1   1   6 
  128    1   1   3 
  256    1   1   2 
  512    1   6   7 
  1024    2   6   7 
  2048    4   6   7 
  4096    1   6   7 
  8192    2   2   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:58 EDT.
86443 accesses since 1/2/96.