COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(ordered swap of 8KB message using MPI between two nodes)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 4, each on different (logically neighboring) nodes
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 16.10 30.94 15.5%
1 iter. 40.44 21.63 21.4%
10 iter. 49.96 21.91 26.7%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 15.36 32.84 24.1%
1 iter. 40.60 22.86 22.7%
10 iter. 49.31 21.70 26.1%
cache inv. w/overlap 14.59 30.46 10.8%
1 iter. w/overlap 41.01 22.82 22.9%
10 iter. w/overlap 48.25 23.21 27.3%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 14.90 32.47 16.3%
1 iter. 39.10 21.72 22.0%
10 iter. 50.27 22.43 27.5%
cache inv. w/overlap 17.13 32.43 15.8%
1 iter. w/overlap 42.08 23.50 24.1%
10 iter. w/overlap 49.02 23.32 27.2%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 15.03 32.07 13.7%
1 iter. 39.70 22.74 22.0%
10 iter. 49.15 23.12 25.9%
cache inv. w/overlap 15.34 32.37 12.1%
1 iter. w/overlap 41.53 25.12 25.5%
10 iter. w/overlap 48.43 23.99 28.4%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 14.80 33.55 8.2%
1 iter. 43.90 30.37 16.3%
10 iter. 60.57 28.01 20.7%
cache inv. w/overlap 16.27 30.81 11.5%
1 iter. w/overlap 54.36 25.30 17.2%
10 iter. w/overlap 64.09 23.00 19.0%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 15.18 33.11 12.5%
1 iter. 43.53 29.51 15.7%
10 iter. 59.71 27.74 20.2%
cache inv. w/overlap 16.12 31.90 12.0%
1 iter. w/overlap 46.19 25.96 14.6%
10 iter. w/overlap 63.36 24.27 18.8%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 19.39 33.98 19.5%
1 iter. 32.98 23.41 18.8%
10 iter. 47.14 24.31 28.0%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 13.24 80.97 25.9%
1 iter. 34.47 62.77 26.4%
10 iter. 49.11 63.13 37.8%
cache inv. w/overlap 24.44 79.87 26.3%
1 iter. w/overlap 33.83 64.46 26.6%
10 iter. w/overlap 48.05 65.64 38.5%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 14.89 75.22 13.7%
1 iter. 34.32 63.30 26.5%
10 iter. 47.82 63.25 36.9%
cache inv. w/overlap 15.45 80.34 15.2%
1 iter. w/overlap 38.63 69.32 32.7%
10 iter. w/overlap 48.51 63.88 37.8%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 15.35 79.20 14.8%
1 iter. 35.63 61.49 26.7%
10 iter. 48.35 63.39 37.4%
cache inv. w/overlap 15.46 82.67 15.6%
1 iter. w/overlap 33.39 64.75 26.4%
10 iter. w/overlap 46.68 64.99 37.0%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 29.17 76.02 33.9%
1 iter. 35.80 61.93 27.1%
10 iter. 49.10 60.09 36.0%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   6.0014e-02   5.8607e-05   0.27   0.62   0.12   1.67 
  16   2.7966e-02   5.4621e-05   0.59   0.69   0.18   1.82 
  32   1.5006e-02   5.8616e-05   1.09   0.65   0.13   1.81 
  64   8.2371e-03   6.4353e-05   1.99   0.61   0.11   1.64 
  128   4.6266e-03   7.2291e-05   3.54   0.60   0.19   1.54 
  256   2.9970e-03   9.3657e-05   5.47   0.44   0.15   1.11 
  512   2.0676e-03   1.2922e-04   7.92   0.33   0.14   0.87 
  1024   1.6340e-03   2.0426e-04   10.03   0.22   0.08   0.53 
  2048   1.2653e-03   3.1633e-04   12.95   0.17   0.11   0.41 
  4096   8.4489e-04   4.2245e-04   19.39   0.36   0.36   0.56 
  8192   5.6170e-04   5.6170e-04   29.17   0.89   0.96   1.20 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   3   2   6 
  16   1   0   2   3   6 
  32   1   0   2   3   4 
  64   0   1   2   3   6 
  128   0   6   1   2   3 
  256   0   2   3   1   6 
  512   0   1   2   6   3 
  1024   6   2   0   1   3 
  2048   0   2   1   6   3 
  4096   6   0   1   3   2 
  8192   10   6   0   9   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   4   7 
  16    1   2   7 
  32    2   4   7 
  64    2   4   7 
  128    1   2   7 
  256    2   4   7 
  512    3   4   7 
  1024    1   4   7 
  2048    2   3   7 
  4096    1   1   2 
  8192    1   1   1 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   4.4578e-02   4.3533e-05   0.37   0.77   0.33   1.93 
  16   2.2429e-02   4.3807e-05   0.73   0.76   0.26   2.01 
  32   1.1366e-02   4.4397e-05   1.44   0.76   0.26   1.99 
  64   5.7268e-03   4.4741e-05   2.86   0.77   0.28   1.94 
  128   3.6893e-03   5.7645e-05   4.44   0.57   0.16   1.43 
  256   2.0834e-03   6.5106e-05   7.86   0.48   0.08   1.27 
  512   1.1374e-03   7.1090e-05   14.40   0.50   0.17   1.23 
  1024   8.1957e-04   1.0245e-04   19.99   0.36   0.14   0.90 
  2048   5.4500e-04   1.3625e-04   30.06   0.31   0.18   0.73 
  4096   4.0351e-04   2.0176e-04   40.60   0.27   0.23   0.58 
  8192   3.7319e-04   3.7319e-04   43.90   0.21   0.23   0.40 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   3   1   6 
  16   0   2   3   1   6 
  32   0   2   1   6   3 
  64   2   0   1   3   6 
  128   0   1   3   2   6 
  256   0   1   2   3   4 
  512   0   1   2   3   6 
  1024   0   3   1   2   6 
  2048   3   1   2   0   6 
  4096   1   0   3   2   4 
  8192   4   5   2   10   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   2   5 
  16    1   2   5 
  32    2   3   5 
  64    2   3   5 
  128    1   2   7 
  256    1   4   7 
  512    1   3   7 
  1024    1   4   7 
  2048    1   3   6 
  4096    2   4   6 
  8192    2   2   8 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   4.5158e-02   4.4100e-05   0.36   0.74   0.27   1.89 
  16   2.2828e-02   4.4587e-05   0.72   0.73   0.25   1.89 
  32   1.1255e-02   4.3966e-05   1.46   0.76   0.25   1.94 
  64   5.7218e-03   4.4702e-05   2.86   0.76   0.29   1.89 
  128   3.4636e-03   5.4119e-05   4.73   0.63   0.21   1.55 
  256   2.0133e-03   6.2915e-05   8.14   0.48   0.06   1.31 
  512   1.0489e-03   6.5559e-05   15.62   0.49   0.07   1.30 
  1024   7.1710e-04   8.9637e-05   22.85   0.36   0.08   0.99 
  2048   4.6963e-04   1.1741e-04   34.89   0.28   0.09   0.71 
  4096   3.2593e-04   1.6296e-04   50.27   0.23   0.11   0.56 
  8192   2.7048e-04   2.7048e-04   60.57   0.20   0.23   0.30 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   1   0   2   3   6 
  16   2   1   0   3   6 
  32   0   1   2   3   6 
  64   0   2   1   3   6 
  128   0   2   3   1   6 
  256   3   0   1   2   6 
  512   2   0   3   1   6 
  1024   1   0   2   3   6 
  2048   0   3   1   2   6 
  4096   2   0   1   3   6 
  8192   4   5   2   3   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   4   5 
  16    3   4   6 
  32    1   3   5 
  64    2   3   5 
  128    1   1   7 
  256    4   4   7 
  512    3   5   7 
  1024    3   5   7 
  2048    1   5   7 
  4096    2   4   7 
  8192    1   2   7 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   6.1207e-02   5.9772e-05   0.27   0.59   0.04   1.64 
  16   2.5858e-02   5.0504e-05   0.63   0.81   0.20   1.98 
  32   1.5165e-02   5.9238e-05   1.08   0.62   0.06   1.73 
  64   7.9513e-03   6.2119e-05   2.06   0.62   0.08   1.67 
  128   4.6680e-03   7.2937e-05   3.51   0.57   0.11   1.44 
  256   3.0038e-03   9.3870e-05   5.45   0.43   0.08   1.18 
  512   1.9632e-03   1.2270e-04   8.35   0.40   0.13   0.97 
  1024   1.5867e-03   1.9834e-04   10.33   0.26   0.09   0.64 
  2048   1.2255e-03   3.0638e-04   13.37   0.18   0.09   0.43 
  4096   9.5638e-04   4.7819e-04   17.13   0.20   0.17   0.40 
  8192   4.6702e-04   4.6702e-04   35.08   1.08   1.27   1.41 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   4   2   3 
  16   0   2   1   3   4 
  32   2   0   4   5   1 
  64   0   1   4   2   5 
  128   0   4   2   3   1 
  256   0   2   4   3   6 
  512   0   2   4   3   6 
  1024   0   6   2   4   1 
  2048   0   2   6   5   4 
  4096   2   0   4   5   3 
  8192   10   7   4   5   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   6   7 
  16    1   1   6 
  32    2   4   7 
  64    1   5   7 
  128    1   1   7 
  256    2   3   7 
  512    1   1   7 
  1024    1   2   7 
  2048    1   4   7 
  4096    1   2   8 
  8192    1   1   1 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   4.5486e-02   4.4419e-05   0.36   0.77   0.16   2.04 
  16   2.2681e-02   4.4300e-05   0.72   0.79   0.17   2.05 
  32   1.1498e-02   4.4913e-05   1.42   0.79   0.17   1.99 
  64   5.7600e-03   4.5000e-05   2.84   0.83   0.23   2.16 
  128   3.9656e-03   6.1963e-05   4.13   0.49   0.04   1.38 
  256   2.1029e-03   6.5715e-05   7.79   0.48   0.03   1.35 
  512   1.1640e-03   7.2753e-05   14.08   0.49   0.07   1.39 
  1024   8.0723e-04   1.0090e-04   20.30   0.35   0.07   0.95 
  2048   5.5521e-04   1.3880e-04   29.51   0.29   0.10   0.73 
  4096   3.8936e-04   1.9468e-04   42.08   0.26   0.07   0.65 
  8192   3.0138e-04   3.0138e-04   54.36   0.44   0.48   0.66 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   6   4 
  16   0   1   2   4   5 
  32   0   2   1   4   5 
  64   0   1   2   4   5 
  128   0   5   4   1   3 
  256   3   4   1   0   2 
  512   1   0   3   5   4 
  1024   1   3   5   0   4 
  2048   4   1   0   5   3 
  4096   2   3   1   0   4 
  8192   4   5   8   1   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   2   7 
  16    1   1   7 
  32    1   1   7 
  64    1   1   6 
  128    1   6   7 
  256    2   6   7 
  512    1   4   7 
  1024    3   4   7 
  2048    1   2   7 
  4096    1   5   7 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   4.6480e-02   4.5390e-05   0.35   0.68   0.07   1.87 
  16   2.2488e-02   4.3922e-05   0.73   0.74   0.10   1.97 
  32   1.1264e-02   4.4001e-05   1.45   0.75   0.15   1.99 
  64   5.6982e-03   4.4517e-05   2.88   0.74   0.11   1.96 
  128   3.3752e-03   5.2737e-05   4.85   0.67   0.18   1.68 
  256   1.9799e-03   6.1871e-05   8.28   0.50   0.06   1.37 
  512   1.0246e-03   6.4037e-05   15.99   0.52   0.06   1.43 
  1024   7.2270e-04   9.0338e-05   22.67   0.34   0.02   0.92 
  2048   4.6030e-04   1.1507e-04   35.59   0.29   0.05   0.79 
  4096   3.3015e-04   1.6507e-04   49.63   0.19   0.03   0.51 
  8192   2.5566e-04   2.5566e-04   64.09   0.27   0.32   0.37 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   4   2   3 
  16   0   1   2   4   3 
  32   0   4   2   1   5 
  64   0   2   1   4   5 
  128   0   2   4   5   3 
  256   0   2   1   3   4 
  512   0   1   4   2   3 
  1024   0   2   1   4   3 
  2048   0   4   2   5   1 
  4096   4   5   0   2   3 
  8192   4   5   10   2   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   4   7 
  16    1   1   7 
  32    1   2   7 
  64    1   1   7 
  128    1   1   7 
  256    1   4   7 
  512    1   4   7 
  1024    1   7   7 
  2048    1   5   7 
  4096    2   7   7 
  8192    1   2   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:19:00 EDT.
87221 accesses since 1/2/96.