COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(unordered swap of 8KB message using MPI between two nodes)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 256 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 4, each on different (logically neighboring) nodes
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered simple swap
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 26.03 37.73 27.2%
1 iter. 63.48 24.73 23.0%
10 iter. 87.36 25.72 27.4%

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 25.93 37.61 28.7%
1 iter. 56.02 25.11 14.1%
10 iter. 87.39 25.93 27.7%
cache inv. w/overlap 24.91 35.94 24.9%
1 iter. w/overlap 67.31 26.71 21.9%
10 iter. w/overlap 85.24 26.61 27.7%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 25.01 33.45 12.7%
1 iter. 51.59 26.47 16.7%
10 iter. 86.32 25.84 27.2%
cache inv. w/overlap 28.27 39.23 36.5%
1 iter. w/overlap 67.40 25.60 21.1%
10 iter. w/overlap 89.21 27.25 29.7%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 23.90 35.84 15.6%
1 iter. 70.48 25.55 23.9%
10 iter. 84.78 25.26 26.1%
cache inv. w/overlap 26.65 35.10 11.4%
1 iter. w/overlap 57.25 26.84 21.9%
10 iter. w/overlap 89.51 28.59 31.2%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 24.76 64.69 21.4%
1 iter. 64.96 53.18 21.1%
10 iter. 94.87 50.38 29.2%
cache inv. w/overlap 44.60 38.36 28.1%
1 iter. w/overlap 56.31 26.19 15.3%
10 iter. w/overlap 111.25 27.19 18.5%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 25.49 65.61 10.2%
1 iter. 65.54 51.21 20.5%
10 iter. 90.41 52.90 29.2%
cache inv. w/overlap 26.01 34.21 7.4%
1 iter. w/overlap 76.28 27.37 17.3%
10 iter. w/overlap 112.06 27.87 19.1%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 26.88 34.64 11.4%
1 iter. 69.37 25.96 22.0%
10 iter. 85.90 26.46 27.7%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 24.61 79.55 11.9%
1 iter. 55.66 68.86 23.4%
10 iter. 80.86 70.46 34.8%
cache inv. w/overlap 23.49 83.77 12.0%
1 iter. w/overlap 60.66 70.64 26.2%
10 iter. w/overlap 82.30 70.44 35.4%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 25.17 86.56 13.3%
1 iter. 50.17 75.48 23.1%
10 iter. 84.25 70.44 36.2%
cache inv. w/overlap 26.59 83.20 33.4%
1 iter. w/overlap 40.85 69.37 34.6%
10 iter. w/overlap 63.12 70.24 42.4%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 25.70 83.33 27.7%
1 iter. 50.78 70.48 21.8%
10 iter. 61.96 73.77 27.9%
cache inv. w/overlap 27.28 93.45 25.3%
1 iter. w/overlap 46.18 75.36 32.9%
10 iter. w/overlap 80.18 72.58 35.5%


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   3.4598e-02   3.3787e-05   0.47   0.60   0.76   1.48 
  16   1.5598e-02   3.0464e-05   1.05   0.71   0.78   1.76 
  32   8.1111e-03   3.1684e-05   2.02   0.71   0.89   1.71 
  64   4.4712e-03   3.4931e-05   3.66   0.70   0.95   1.69 
  128   2.5904e-03   4.0475e-05   6.32   0.64   0.78   1.61 
  256   1.6657e-03   5.2055e-05   9.84   0.52   0.62   1.34 
  512   1.1583e-03   7.2394e-05   14.14   0.39   0.40   1.00 
  1024   9.1628e-04   1.1453e-04   17.88   0.29   0.35   0.97 
  2048   7.3692e-04   1.8423e-04   22.23   0.18   0.23   0.38 
  4096   6.0957e-04   3.0479e-04   26.88   0.23   0.28   0.52 
  8192   6.3553e-04   6.3553e-04   25.78   0.09   0.04   0.48 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   2   1   0   6   3 
  16   1   0   3   6   2 
  32   0   2   1   3   6 
  64   0   2   6   1   3 
  128   1   6   2   0   3 
  256   0   6   2   1   3 
  512   6   2   3   1   0 
  1024   2   1   0   6   3 
  2048   6   2   0   3   1 
  4096   6   0   1   2   3 
  8192   6   9   5   8   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   5   5 
  16    2   2   5 
  32    2   3   5 
  64    1   4   5 
  128    1   4   5 
  256    1   4   5 
  512    2   2   5 
  1024    2   4   5 
  2048    1   3   6 
  4096    1   3   5 
  8192    2   7   9 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.6125e-02   2.5513e-05   0.63   0.76   1.04   1.86 
  16   1.3330e-02   2.6034e-05   1.23   0.74   0.98   1.90 
  32   6.7530e-03   2.6379e-05   2.43   0.73   0.99   1.84 
  64   3.4335e-03   2.6824e-05   4.77   0.72   0.96   1.76 
  128   2.1382e-03   3.3409e-05   7.66   0.60   0.63   1.50 
  256   1.1963e-03   3.7384e-05   13.70   0.55   0.62   1.54 
  512   7.1883e-04   4.4927e-05   22.79   0.50   0.65   1.24 
  1024   4.7734e-04   5.9668e-05   34.32   0.47   0.56   1.22 
  2048   3.4840e-04   8.7101e-05   47.03   0.39   0.48   1.02 
  4096   2.3245e-04   1.1622e-04   70.48   0.43   0.61   0.90 
  8192   2.5000e-04   2.5000e-04   65.54   0.24   0.31   0.47 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   6   3   2 
  16   6   0   2   1   3 
  32   6   0   1   3   2 
  64   6   2   0   3   1 
  128   2   1   0   6   3 
  256   6   1   2   0   3 
  512   6   2   3   0   1 
  1024   2   6   1   3   0 
  2048   1   0   3   2   6 
  4096   3   6   0   1   2 
  8192   5   4   1   7   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   5   5 
  16    2   5   5 
  32    2   5   5 
  64    1   4   5 
  128    1   4   5 
  256    2   3   5 
  512    1   3   5 
  1024    1   1   5 
  2048    1   1   5 
  4096    1   2   3 
  8192    2   2   4 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.6276e-02   2.5660e-05   0.62   0.75   1.00   1.87 
  16   1.3109e-02   2.5604e-05   1.25   0.75   1.03   1.87 
  32   6.5883e-03   2.5735e-05   2.49   0.78   1.05   1.91 
  64   3.3511e-03   2.6181e-05   4.89   0.72   0.97   1.78 
  128   1.7362e-03   2.7128e-05   9.44   0.90   1.02   1.97 
  256   1.1049e-03   3.4527e-05   14.83   0.61   0.72   1.55 
  512   5.9361e-04   3.7100e-05   27.60   0.58   0.75   1.59 
  1024   3.7659e-04   4.7073e-05   43.51   0.54   0.68   1.37 
  2048   2.5495e-04   6.3737e-05   64.26   0.38   0.43   1.33 
  4096   1.8748e-04   9.3739e-05   87.39   0.27   0.29   0.86 
  8192   1.7270e-04   1.7270e-04   94.87   0.19   0.16   0.53 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   6   1   3 
  16   0   6   2   1   3 
  32   0   6   2   1   3 
  64   0   2   3   6   1 
  128   0   6   1   2   3 
  256   0   6   1   3   2 
  512   0   2   1   6   3 
  1024   0   1   6   2   3 
  2048   6   0   1   2   3 
  4096   1   0   2   6   3 
  8192   4   5   8   2   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   5   5 
  16    2   4   5 
  32    1   4   5 
  64    2   5   5 
  128    1   1   2 
  256    1   5   5 
  512    4   5   5 
  1024    1   3   5 
  2048    2   4   5 
  4096    2   5   5 
  8192    1   2   8 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   3.3433e-02   3.2649e-05   0.49   0.51   0.05   1.74 
  16   1.4071e-02   2.7482e-05   1.16   0.69   0.24   2.10 
  32   7.0165e-03   2.7408e-05   2.34   0.76   0.26   2.34 
  64   4.5527e-03   3.5568e-05   3.60   0.50   0.04   1.68 
  128   2.5900e-03   4.0469e-05   6.33   0.48   0.10   1.56 
  256   1.6237e-03   5.0741e-05   10.09   0.44   0.10   1.41 
  512   1.1311e-03   7.0691e-05   14.49   0.32   0.06   1.22 
  1024   8.8766e-04   1.1096e-04   18.46   0.29   0.09   1.17 
  2048   7.0670e-04   1.7668e-04   23.18   0.22   0.07   0.85 
  4096   3.6734e-04   1.8367e-04   44.60   0.77   0.85   1.15 
  8192   5.5553e-04   5.5553e-04   29.49   0.20   0.17   0.66 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   6   1   2   5 
  16   0   2   4   6   1 
  32   6   0   2   4   1 
  64   6   5   4   0   2 
  128   6   0   2   4   1 
  256   0   2   6   1   4 
  512   4   0   2   6   3 
  1024   2   4   0   3   5 
  2048   4   2   6   0   5 
  4096   4   2   6   3   1 
  8192   4   9   8   5   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   3   7 
  16    1   1   6 
  32    1   1   5 
  64    1   6   7 
  128    3   5   7 
  256    1   1   7 
  512    2   5   7 
  1024    1   4   7 
  2048    1   5   7 
  4096    1   1   1 
  8192    1   1   8 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.6444e-02   2.5824e-05   0.62   0.55   0.04   1.87 
  16   1.3312e-02   2.6000e-05   1.23   0.54   0.02   1.81 
  32   6.7207e-03   2.6253e-05   2.44   0.54   0.05   1.79 
  64   3.4153e-03   2.6682e-05   4.80   0.59   0.17   1.86 
  128   2.0633e-03   3.2239e-05   7.94   0.50   0.14   1.49 
  256   1.1730e-03   3.6656e-05   13.97   0.43   0.08   1.37 
  512   7.0532e-04   4.4082e-05   23.23   0.35   0.03   1.15 
  1024   4.7245e-04   5.9056e-05   34.68   0.39   0.16   1.12 
  2048   3.1287e-04   7.8218e-05   52.37   0.44   0.29   1.08 
  4096   2.4309e-04   1.2154e-04   67.40   0.27   0.18   0.65 
  8192   2.1479e-04   2.1479e-04   76.28   0.48   0.40   0.90 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   4   3   1 
  16   0   3   4   5   1 
  32   0   6   3   5   2 
  64   0   2   6   4   1 
  128   0   6   2   4   5 
  256   2   5   4   3   1 
  512   2   3   6   1   5 
  1024   1   2   0   5   4 
  2048   0   5   2   6   3 
  4096   2   1   5   6   3 
  8192   5   7   0   4   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   7   7 
  16    2   6   7 
  32    2   6   7 
  64    2   4   7 
  128    1   2   7 
  256    1   3   7 
  512    2   7   7 
  1024    1   1   7 
  2048    1   1   3 
  4096    2   3   6 
  8192    1   1   1 


Protocol Sensitivity Summary for Bidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.6325e-02   2.5708e-05   0.62   0.57   0.10   1.84 
  16   1.3343e-02   2.6060e-05   1.23   0.56   0.09   1.81 
  32   6.8010e-03   2.6566e-05   2.41   0.54   0.07   1.75 
  64   3.3668e-03   2.6303e-05   4.87   0.55   0.09   1.80 
  128   1.7937e-03   2.8026e-05   9.13   0.61   0.20   1.79 
  256   9.4828e-04   2.9634e-05   17.28   0.65   0.26   1.89 
  512   5.9502e-04   3.7189e-05   27.54   0.44   0.05   1.56 
  1024   3.8799e-04   4.8499e-05   42.23   0.37   0.04   1.36 
  2048   2.4724e-04   6.1811e-05   66.27   0.26   0.05   0.82 
  4096   1.8016e-04   9.0080e-05   90.94   0.20   0.07   0.61 
  8192   1.4620e-04   1.4620e-04   112.06   0.35   0.37   0.78 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   6   1   2   4 
  16   0   6   1   2   4 
  32   0   6   1   2   4 
  64   0   6   2   1   4 
  128   6   2   1   4   5 
  256   2   1   6   0   4 
  512   6   0   1   2   4 
  1024   1   2   0   3   5 
  2048   2   1   6   0   4 
  4096   4   3   2   6   1 
  8192   5   4   3   2   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   3   7 
  16    2   5   7 
  32    3   5   7 
  64    2   4   7 
  128    1   3   7 
  256    2   2   5 
  512    2   5   7 
  1024    3   6   7 
  2048    1   5   7 
  4096    1   4   7 
  8192    2   2   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:48 EDT.
86856 accesses since 1/2/96.