COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(unordered swap of 8KB message using MPI between two nodes)

(performance measured per processor when all processors in node communicating)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 4
1 and 5
2 and 6
3 and 7
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered simple swap
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 23.33 77.80 22.2%
1 iter. 34.22 79.47 33.2%
10 iter. 31.27 78.72 30.1%

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 22.56 83.47 23.0%
1 iter. 29.15 84.79 34.7%
10 iter. 31.34 86.63 33.1%
cache inv. w/overlap 21.67 88.83 31.7%
1 iter. w/overlap 33.55 89.31 36.6%
10 iter. w/overlap 31.12 80.74 30.7%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 22.75 84.25 23.4%
1 iter. 30.39 86.56 32.1%
10 iter. 31.47 87.07 33.4%
cache inv. w/overlap 25.73 84.70 27.8%
1 iter. w/overlap 30.56 87.37 32.6%
10 iter. w/overlap 31.56 77.42 29.8%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 21.35 91.40 27.0%
1 iter. 35.68 90.81 20.8%
10 iter. 31.39 90.83 34.8%
cache inv. w/overlap 21.43 91.85 30.8%
1 iter. w/overlap 29.47 95.25 34.3%
10 iter. w/overlap 31.29 81.58 31.2%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 20.46 159.57 22.1%
1 iter. 27.77 161.03 27.3%
10 iter. 31.43 159.04 30.5%
cache inv. w/overlap 25.57 88.02 27.5%
1 iter. w/overlap 33.12 89.05 28.7%
10 iter. w/overlap 37.69 79.76 18.3%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 19.95 167.13 26.9%
1 iter. 29.59 170.14 37.3%
10 iter. 31.40 169.66 32.5%
cache inv. w/overlap 25.07 91.45 21.1%
1 iter. w/overlap 30.25 93.78 40.4%
10 iter. w/overlap 38.03 81.78 19.0%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 21.72 80.30 24.8%
1 iter. 29.03 81.65 28.9%
10 iter. 31.44 81.97 31.5%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 16.02 185.07 35.1%
1 iter. 24.05 189.70 27.8%
10 iter. 27.65 190.05 32.1%
cache inv. w/overlap 17.16 193.16 20.2%
1 iter. w/overlap 23.19 195.65 27.7%
10 iter. w/overlap 27.21 184.04 30.6%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 18.66 192.59 24.9%
1 iter. 21.07 196.73 25.5%
10 iter. 26.81 196.53 32.2%
cache inv. w/overlap 16.95 191.20 39.6%
1 iter. w/overlap 22.52 196.64 27.0%
10 iter. w/overlap 27.66 175.71 29.7%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 16.19 204.04 25.5%
1 iter. 20.67 207.06 31.8%
10 iter. 27.10 206.35 34.1%
cache inv. w/overlap 15.89 200.90 30.6%
1 iter. w/overlap 23.22 205.32 29.1%
10 iter. w/overlap 27.13 180.98 30.0%


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   8.2596e-02   8.0660e-05   0.20   0.67   1.00   1.54 
  16   4.2763e-02   8.3522e-05   0.38   0.64   0.95   1.47 
  32   2.1730e-02   8.4882e-05   0.75   0.64   0.96   1.46 
  64   1.1354e-02   8.8701e-05   1.44   0.60   0.94   1.39 
  128   5.8996e-03   9.2181e-05   2.78   0.66   0.96   1.60 
  256   3.0689e-03   9.5904e-05   5.34   0.69   0.97   1.66 
  512   1.6851e-03   1.0532e-04   9.72   0.65   0.85   1.58 
  1024   1.2120e-03   1.5150e-04   13.52   0.47   0.64   1.08 
  2048   8.6202e-04   2.1551e-04   19.01   0.34   0.46   0.79 
  4096   7.0223e-04   3.5112e-04   23.33   0.24   0.30   0.61 
  8192   8.0074e-04   8.0074e-04   20.46   0.17   0.19   0.30 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   6   1   2   3 
  16   0   6   1   2   3 
  32   0   6   1   2   3 
  64   0   2   1   6   3 
  128   0   6   1   2   3 
  256   0   1   2   6   3 
  512   2   0   6   1   3 
  1024   2   0   6   3   1 
  2048   6   0   2   3   1 
  4096   0   2   1   6   3 
  8192   4   5   6   8   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   2   5 
  16    1   4   5 
  32    1   3   5 
  64    1   4   5 
  128    2   5   5 
  256    1   4   5 
  512    2   3   5 
  1024    1   3   5 
  2048    1   4   5 
  4096    1   3   5 
  8192    1   2   6 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   8.1454e-02   7.9545e-05   0.20   0.70   1.03   1.61 
  16   4.0767e-02   7.9622e-05   0.40   0.71   1.02   1.61 
  32   2.0522e-02   8.0165e-05   0.80   0.72   1.04   1.61 
  64   1.0524e-02   8.2222e-05   1.56   0.69   1.01   1.57 
  128   5.9999e-03   9.3748e-05   2.73   0.56   0.87   1.34 
  256   3.0278e-03   9.4618e-05   5.41   0.59   0.83   1.41 
  512   1.5991e-03   9.9947e-05   10.25   0.64   0.90   1.57 
  1024   1.0526e-03   1.3157e-04   15.57   0.50   0.33   1.26 
  2048   6.6894e-04   1.6723e-04   24.49   0.52   0.68   1.15 
  4096   4.7872e-04   2.3936e-04   34.22   0.45   0.55   0.95 
  8192   4.5926e-04   4.5926e-04   35.68   0.48   0.64   0.73 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   6   1   2   3 
  16   0   6   1   2   3 
  32   0   6   1   2   3 
  64   0   6   1   2   3 
  128   6   3   2   0   1 
  256   3   6   0   1   2 
  512   3   2   6   1   0 
  1024   6   1   3   2   0 
  2048   1   0   3   2   6 
  4096   0   3   2   1   6 
  8192   3   5   4   2   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   2   5 
  16    1   2   5 
  32    1   1   5 
  64    1   1   5 
  128    5   5   5 
  256    2   5   5 
  512    2   5   5 
  1024    1   2   5 
  2048    1   1   5 
  4096    1   1   5 
  8192    1   1   2 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   8.0984e-02   7.9086e-05   0.20   0.71   1.02   1.61 
  16   4.0681e-02   7.9454e-05   0.40   0.70   1.02   1.60 
  32   2.0418e-02   7.9759e-05   0.80   0.71   1.03   1.60 
  64   1.0456e-02   8.1687e-05   1.57   0.69   1.01   1.55 
  128   5.8225e-03   9.0976e-05   2.81   0.58   0.90   1.36 
  256   2.9739e-03   9.2933e-05   5.51   0.60   0.92   1.41 
  512   1.5685e-03   9.8029e-05   10.45   0.63   0.92   1.56 
  1024   1.0334e-03   1.2917e-04   15.85   0.54   0.72   1.36 
  2048   7.0323e-04   1.7581e-04   23.30   0.38   0.50   0.91 
  4096   5.2067e-04   2.6034e-04   31.47   0.26   0.35   0.65 
  8192   5.2121e-04   5.2121e-04   31.43   0.13   0.16   0.19 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   6   1   2   3 
  16   0   6   1   2   3 
  32   0   6   1   2   3 
  64   0   6   1   2   3 
  128   6   2   0   1   3 
  256   1   6   2   3   0 
  512   6   1   2   0   3 
  1024   1   6   0   2   3 
  2048   1   6   0   3   2 
  4096   2   6   3   1   0 
  8192   4   5   7   1   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   2   5 
  16    1   2   5 
  32    1   1   5 
  64    1   1   5 
  128    3   5   5 
  256    2   5   5 
  512    5   5   5 
  1024    1   5   5 
  2048    4   5   5 
  4096    5   5   5 
  8192    2   2   10 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   8.2963e-02   8.1019e-05   0.20   0.49   0.14   1.50 
  16   4.2721e-02   8.3439e-05   0.38   0.47   0.12   1.45 
  32   2.2518e-02   8.7959e-05   0.73   0.42   0.07   1.37 
  64   1.1487e-02   8.9742e-05   1.43   0.42   0.07   1.39 
  128   5.9216e-03   9.2525e-05   2.77   0.44   0.03   1.47 
  256   2.8063e-03   8.7696e-05   5.84   0.61   0.13   1.86 
  512   1.6635e-03   1.0397e-04   9.85   0.53   0.11   1.60 
  1024   1.1517e-03   1.4396e-04   14.23   0.39   0.10   1.16 
  2048   8.0989e-04   2.0247e-04   20.23   0.27   0.06   0.87 
  4096   6.3681e-04   3.1840e-04   25.73   0.32   0.23   1.00 
  8192   6.5362e-04   6.5362e-04   25.07   0.43   0.53   0.65 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   6   2   4   1 
  16   0   6   2   4   1 
  32   0   6   2   4   1 
  64   0   6   2   4   1 
  128   2   5   0   3   4 
  256   4   6   0   1   2 
  512   6   0   2   1   5 
  1024   4   2   0   6   3 
  2048   2   6   4   1   5 
  4096   2   4   5   1   3 
  8192   5   4   6   3   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   7 
  16    1   2   7 
  32    1   5   7 
  64    2   5   7 
  128    1   7   7 
  256    1   1   7 
  512    1   2   7 
  1024    1   1   7 
  2048    1   5   7 
  4096    2   2   6 
  8192    1   1   2 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   8.2122e-02   8.0197e-05   0.20   0.52   0.17   1.56 
  16   4.1149e-02   8.0369e-05   0.40   0.52   0.17   1.55 
  32   2.0803e-02   8.1262e-05   0.79   0.52   0.17   1.54 
  64   1.0859e-02   8.4834e-05   1.51   0.48   0.11   1.48 
  128   5.9333e-03   9.2708e-05   2.76   0.39   0.02   1.32 
  256   2.5235e-03   7.8860e-05   6.49   0.66   0.23   1.80 
  512   1.6177e-03   1.0110e-04   10.13   0.43   0.01   1.44 
  1024   1.1088e-03   1.3860e-04   14.78   0.38   0.06   1.21 
  2048   7.1638e-04   1.7910e-04   22.87   0.33   0.08   1.00 
  4096   4.8830e-04   2.4415e-04   33.55   0.32   0.14   0.87 
  8192   4.9468e-04   4.9468e-04   33.12   0.35   0.43   0.49 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   6   4   1 
  16   0   2   6   4   1 
  32   0   6   2   1   4 
  64   0   2   6   4   1 
  128   6   0   2   1   4 
  256   5   4   6   3   0 
  512   0   2   1   3   4 
  1024   1   3   2   0   5 
  2048   0   1   6   2   3 
  4096   1   0   4   2   6 
  8192   4   5   2   1   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   7 
  16    1   1   7 
  32    1   1   7 
  64    1   2   7 
  128    4   7   7 
  256    1   1   7 
  512    3   7   7 
  1024    3   5   7 
  2048    1   3   7 
  4096    1   1   7 
  8192    1   1   2 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   7.9517e-02   7.7654e-05   0.21   0.43   0.06   1.37 
  16   3.9877e-02   7.7885e-05   0.41   0.42   0.06   1.37 
  32   2.0296e-02   7.9283e-05   0.81   0.41   0.05   1.34 
  64   1.0326e-02   8.0673e-05   1.59   0.41   0.04   1.33 
  128   5.6240e-03   8.7875e-05   2.91   0.39   0.05   1.26 
  256   2.9369e-03   9.1778e-05   5.58   0.39   0.03   1.27 
  512   1.5672e-03   9.7952e-05   10.45   0.41   0.01   1.37 
  1024   1.0429e-03   1.3036e-04   15.71   0.38   0.03   1.27 
  2048   6.9796e-04   1.7449e-04   23.47   0.29   0.02   0.94 
  4096   5.1111e-04   2.5555e-04   32.06   0.21   0.03   0.68 
  8192   4.3081e-04   4.3081e-04   38.03   0.32   0.40   0.44 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   2   4   0   1   3 
  16   2   4   0   1   5 
  32   2   4   0   1   3 
  64   2   4   0   1   5 
  128   2   4   1   5   3 
  256   4   2   6   1   3 
  512   2   4   0   6   3 
  1024   0   6   4   1   3 
  2048   4   1   5   0   6 
  4096   5   4   2   6   3 
  8192   5   4   8   1   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   4   7 
  16    1   4   7 
  32    1   6   7 
  64    1   6   7 
  128    2   7   7 
  256    2   7   7 
  512    4   7   7 
  1024    3   7   7 
  2048    2   7   7 
  4096    2   7   7 
  8192    2   2   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:47 EDT.
86670 accesses since 1/2/96.