COMMTEST SP3-200 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-200 SWAP Performance

(ordered swap of 8KB message using MPI and US between nodes)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at National Energy Research Scientific Computing Center (Gseaborg)
   256 2-way Winterhawk I SMP nodes (200 MHz POWER3 with 4MB L2 cache, equivalent to RS/6000 Model 260
Environment: AIX 4.3.2; POE 2.4.0.12
Communication Library: MPI over the switch using user space
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 2
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 29.49 28.02 20.2%
1 iter. 36.98 27.92 23.5%
10 iter. 38.46 28.55 26.6%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 30.37 28.53 13.7%
1 iter. 35.08 28.81 20.1%
10 iter. 38.04 29.08 25.0%
cache inv. w/overlap 27.75 31.02 18.1%
1 iter. w/overlap 35.14 33.59 25.3%
10 iter. w/overlap 37.61 30.14 23.3%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 29.15 26.80 19.1%
1 iter. 36.77 30.99 27.8%
10 iter. 37.83 29.24 24.5%
cache inv. w/overlap 29.22 30.19 21.5%
1 iter. w/overlap 36.65 29.71 26.6%
10 iter. w/overlap 38.66 30.34 27.4%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 27.63 30.86 20.8%
1 iter. 35.36 32.12 27.7%
10 iter. 37.79 31.96 26.0%
cache inv. w/overlap 28.32 36.31 25.1%
1 iter. w/overlap 34.88 35.94 26.4%
10 iter. w/overlap 38.18 31.95 25.4%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 31.59 36.30 15.6%
1 iter. 35.48 35.17 15.2%
10 iter. 46.41 36.71 20.8%
cache inv. w/overlap 36.42 31.92 19.3%
1 iter. w/overlap 45.74 32.81 18.3%
10 iter. w/overlap 49.58 30.58 18.5%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 31.12 36.84 14.0%
1 iter. 39.59 38.38 18.5%
10 iter. 46.31 37.91 21.4%
cache inv. w/overlap 33.66 37.44 15.4%
1 iter. w/overlap 45.10 34.75 19.1%
10 iter. w/overlap 49.33 32.39 19.5%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 29.30 29.31 14.4%
1 iter. 30.99 31.29 20.9%
10 iter. 38.21 30.88 24.6%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 26.35 78.72 25.3%
1 iter. 35.85 79.65 34.9%
10 iter. 37.87 78.40 36.2%
cache inv. w/overlap 27.72 84.68 28.7%
1 iter. w/overlap 34.09 78.45 32.6%
10 iter. w/overlap 38.30 77.79 36.4%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 26.34 85.26 27.4%
1 iter. 34.37 82.65 34.7%
10 iter. 37.82 78.04 36.0%
cache inv. w/overlap 28.68 86.12 30.2%
1 iter. w/overlap 34.05 79.47 33.0%
10 iter. w/overlap 37.35 80.16 36.5%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 26.78 80.20 26.2%
1 iter. 35.77 80.57 35.2%
10 iter. 36.74 80.53 36.1%
cache inv. w/overlap 27.74 89.24 30.2%
1 iter. w/overlap 35.58 83.35 36.2%
10 iter. w/overlap 37.40 84.90 38.8%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 31.40 80.89 31.0%
1 iter. 38.40 76.62 35.9%
10 iter. 38.91 78.86 37.5%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   5.8061e-02   5.6700e-05   0.28   0.75   0.29   1.90 
  16   2.9368e-02   5.7360e-05   0.56   0.74   0.28   1.88 
  32   1.4675e-02   5.7325e-05   1.12   0.76   0.31   1.88 
  64   7.5536e-03   5.9013e-05   2.17   0.74   0.31   1.94 
  128   4.5206e-03   7.0635e-05   3.62   0.60   0.23   1.54 
  256   2.4498e-03   7.6556e-05   6.69   0.56   0.26   1.38 
  512   1.4631e-03   9.1443e-05   11.20   0.48   0.25   1.17 
  1024   1.0750e-03   1.3438e-04   15.24   0.35   0.20   0.92 
  2048   7.5043e-04   1.8761e-04   21.83   0.28   0.19   0.64 
  4096   5.5564e-04   2.7782e-04   29.49   0.22   0.19   0.45 
  8192   5.1872e-04   5.1872e-04   31.59   0.11   0.08   0.20 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   6   3 
  16   0   1   2   3   6 
  32   0   2   1   6   3 
  64   0   1   2   6   3 
  128   0   2   3   1   6 
  256   0   1   2   3   6 
  512   0   2   6   1   3 
  1024   0   1   2   3   6 
  2048   0   1   6   2   3 
  4096   0   2   1   3   6 
  8192   4   10   5   1   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   3   5 
  16    1   2   5 
  32    1   3   5 
  64    1   2   5 
  128    1   2   6 
  256    1   1   5 
  512    1   1   5 
  1024    1   3   7 
  2048    1   2   7 
  4096    1   3   7 
  8192    2   4   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   5.9017e-02   5.7633e-05   0.28   0.71   0.24   1.82 
  16   2.9317e-02   5.7260e-05   0.56   0.71   0.27   1.86 
  32   1.4682e-02   5.7353e-05   1.12   0.69   0.25   1.78 
  64   7.2390e-03   5.6555e-05   2.26   0.73   0.31   1.78 
  128   4.1824e-03   6.5351e-05   3.92   0.67   0.26   1.74 
  256   2.2871e-03   7.1473e-05   7.16   0.60   0.27   1.48 
  512   1.3366e-03   8.3537e-05   12.26   0.52   0.26   1.28 
  1024   9.4936e-04   1.1867e-04   17.26   0.39   0.24   0.94 
  2048   6.4032e-04   1.6008e-04   25.59   0.30   0.22   0.68 
  4096   4.4564e-04   2.2282e-04   36.77   0.26   0.26   0.56 
  8192   4.1383e-04   4.1383e-04   39.59   0.13   0.12   0.28 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   6   3 
  16   2   1   0   6   3 
  32   2   0   1   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   2   1   3   6 
  512   0   1   2   6   3 
  1024   0   1   2   3   6 
  2048   0   1   2   3   6 
  4096   2   0   3   1   6 
  8192   5   10   0   7   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   3   6 
  16    1   3   5 
  32    2   3   6 
  64    1   3   5 
  128    1   1   5 
  256    1   2   5 
  512    1   1   5 
  1024    1   3   6 
  2048    1   3   7 
  4096    2   3   5 
  8192    1   2   9 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   5.9116e-02   5.7731e-05   0.28   0.69   0.26   1.78 
  16   2.9882e-02   5.8363e-05   0.55   0.67   0.24   1.74 
  32   1.4700e-02   5.7423e-05   1.11   0.71   0.27   1.82 
  64   7.3473e-03   5.7400e-05   2.23   0.73   0.30   1.83 
  128   4.2306e-03   6.6103e-05   3.87   0.66   0.26   1.63 
  256   2.2304e-03   6.9701e-05   7.35   0.62   0.25   1.52 
  512   1.2590e-03   7.8686e-05   13.01   0.56   0.24   1.32 
  1024   9.2688e-04   1.1586e-04   17.68   0.35   0.15   0.88 
  2048   6.0530e-04   1.5132e-04   27.07   0.28   0.14   0.70 
  4096   4.2679e-04   2.1339e-04   38.39   0.21   0.13   0.52 
  8192   3.5300e-04   3.5300e-04   46.41   0.18   0.22   0.26 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   6   3 
  16   0   1   2   6   3 
  32   0   1   2   6   3 
  64   0   1   2   6   3 
  128   0   1   2   3   6 
  256   0   1   3   2   6 
  512   0   1   2   6   3 
  1024   0   2   1   6   3 
  2048   0   1   2   6   3 
  4096   0   1   2   6   3 
  8192   4   5   10   0   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   3   5 
  16    3   3   6 
  32    1   3   5 
  64    1   2   5 
  128    1   1   5 
  256    1   1   5 
  512    1   1   6 
  1024    1   4   7 
  2048    1   3   7 
  4096    1   5   7 
  8192    2   2   10 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   5.8384e-02   5.7015e-05   0.28   0.78   0.26   2.07 
  16   2.9077e-02   5.6792e-05   0.56   0.77   0.25   2.03 
  32   1.4670e-02   5.7304e-05   1.12   0.79   0.24   2.08 
  64   7.3386e-03   5.7333e-05   2.23   0.82   0.27   2.13 
  128   4.3904e-03   6.8600e-05   3.73   0.67   0.24   1.66 
  256   2.4709e-03   7.7214e-05   6.63   0.61   0.19   1.75 
  512   1.4627e-03   9.1416e-05   11.20   0.50   0.16   1.29 
  1024   1.0878e-03   1.3597e-04   15.06   0.33   0.11   0.86 
  2048   7.1872e-04   1.7968e-04   22.80   0.31   0.16   0.69 
  4096   5.3362e-04   2.6681e-04   30.70   0.22   0.12   0.50 
  8192   4.4989e-04   4.4989e-04   36.42   0.24   0.28   0.32 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   6   1   4 
  16   0   6   2   4   1 
  32   0   6   1   2   4 
  64   0   6   2   1   4 
  128   0   1   6   2   4 
  256   0   2   6   1   4 
  512   0   2   4   6   1 
  1024   0   2   6   4   5 
  2048   0   2   4   6   1 
  4096   0   2   3   6   4 
  8192   4   5   10   8   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   6 
  64    1   1   5 
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   2   7 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   1   3 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   5.8059e-02   5.6698e-05   0.28   0.75   0.24   1.95 
  16   2.9087e-02   5.6811e-05   0.56   0.75   0.24   1.95 
  32   1.4878e-02   5.8118e-05   1.10   0.71   0.22   1.88 
  64   7.4290e-03   5.8039e-05   2.21   0.75   0.25   1.96 
  128   4.0650e-03   6.3516e-05   4.03   0.73   0.24   1.78 
  256   2.2478e-03   7.0243e-05   7.29   0.65   0.23   1.67 
  512   1.3460e-03   8.4122e-05   12.17   0.53   0.17   1.35 
  1024   9.7968e-04   1.2246e-04   16.72   0.35   0.09   0.90 
  2048   6.6202e-04   1.6551e-04   24.75   0.27   0.08   0.81 
  4096   4.4192e-04   2.2096e-04   37.07   0.25   0.10   0.57 
  8192   3.5819e-04   3.5819e-04   45.74   0.26   0.30   0.43 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   6   4   1 
  16   0   2   6   1   4 
  32   0   6   2   4   1 
  64   0   6   2   1   4 
  128   0   6   2   1   4 
  256   0   2   1   6   4 
  512   0   1   2   4   6 
  1024   0   1   2   4   6 
  2048   2   0   1   4   5 
  4096   0   2   4   1   5 
  8192   4   5   10   0   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   6 
  16    1   1   6 
  32    1   1   6 
  64    1   1   5 
  128    1   1   6 
  256    1   1   6 
  512    1   1   7 
  1024    1   2   7 
  2048    1   4   7 
  4096    1   2   7 
  8192    1   2   3 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   5.8267e-02   5.6901e-05   0.28   0.72   0.13   1.98 
  16   2.9204e-02   5.7039e-05   0.56   0.72   0.12   1.97 
  32   1.4604e-02   5.7047e-05   1.12   0.73   0.14   1.98 
  64   7.3627e-03   5.7521e-05   2.23   0.73   0.15   1.97 
  128   4.2135e-03   6.5835e-05   3.89   0.68   0.17   1.78 
  256   2.3004e-03   7.1886e-05   7.12   0.60   0.13   1.60 
  512   1.2783e-03   7.9892e-05   12.82   0.56   0.14   1.46 
  1024   9.1461e-04   1.1433e-04   17.91   0.38   0.09   1.05 
  2048   6.0816e-04   1.5204e-04   26.94   0.28   0.07   0.73 
  4096   4.2681e-04   2.1340e-04   38.39   0.21   0.06   0.53 
  8192   3.3046e-04   3.3046e-04   49.58   0.25   0.29   0.33 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   4   6 
  16   0   4   1   2   6 
  32   0   1   2   4   6 
  64   0   1   2   6   4 
  128   0   2   6   1   5 
  256   0   4   1   2   6 
  512   0   2   4   1   6 
  1024   0   2   1   4   6 
  2048   0   2   1   4   6 
  4096   0   2   4   3   5 
  8192   4   5   0   2   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   7 
  16    1   1   7 
  32    1   1   7 
  64    1   1   7 
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   4   7 
  2048    1   1   7 
  4096    2   5   7 
  8192    2   2   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:14:46 EDT.
86619 accesses since 1/2/96.