COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(ordered swap of 128KB message using MPI within a node)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 1
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 167.10 8.46 14.0%
1 iter. 425.15 8.47 39.7%
10 iter. 410.89 8.54 38.4%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 170.92 9.34 16.2%
1 iter. 423.90 9.34 38.9%
10 iter. 423.63 9.40 39.1%
cache inv. w/overlap 163.85 9.82 15.6%
1 iter. w/overlap 425.59 10.02 39.5%
10 iter. w/overlap 417.53 9.91 38.7%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 163.39 9.53 15.1%
1 iter. 420.00 9.45 39.3%
10 iter. 424.66 9.51 39.1%
cache inv. w/overlap 167.56 9.78 15.5%
1 iter. w/overlap 410.08 9.87 38.5%
10 iter. w/overlap 420.73 9.89 38.5%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 167.65 10.23 16.9%
1 iter. 422.09 10.29 38.6%
10 iter. 421.56 10.36 38.3%
cache inv. w/overlap 167.07 10.94 16.4%
1 iter. w/overlap 423.25 11.32 38.3%
10 iter. w/overlap 402.79 11.06 37.5%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 168.42 14.28 6.2%
1 iter. 438.77 14.99 21.8%
10 iter. 440.26 15.39 22.1%
cache inv. w/overlap 169.54 9.89 8.1%
1 iter. w/overlap 450.16 10.31 27.1%
10 iter. w/overlap 436.24 10.03 26.8%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 166.61 15.25 7.7%
1 iter. 432.46 14.93 22.5%
10 iter. 437.26 16.08 21.6%
cache inv. w/overlap 170.59 10.83 7.8%
1 iter. w/overlap 438.62 11.22 26.1%
10 iter. w/overlap 439.59 11.02 27.2%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 163.71 11.90 13.4%
1 iter. 423.69 11.47 37.7%
10 iter. 409.38 11.78 35.4%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 168.37 20.76 4.0%
1 iter. 417.87 20.72 22.7%
10 iter. 402.79 20.89 18.7%
cache inv. w/overlap 162.46 21.24 3.9%
1 iter. w/overlap 420.58 21.60 20.3%
10 iter. w/overlap 416.50 21.84 21.0%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 170.26 20.94 4.4%
1 iter. 421.73 20.95 22.2%
10 iter. 404.22 21.12 19.2%
cache inv. w/overlap 166.47 21.43 5.0%
1 iter. w/overlap 432.08 21.82 21.3%
10 iter. w/overlap 404.54 21.54 18.7%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 168.30 21.85 3.8%
1 iter. 411.24 21.81 20.8%
10 iter. 407.24 21.92 19.3%
cache inv. w/overlap 166.33 22.42 4.3%
1 iter. w/overlap 411.31 23.01 19.1%
10 iter. w/overlap 416.83 23.73 20.8%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 175.95 19.92 4.5%
1 iter. 404.42 19.84 18.6%
10 iter. 425.43 20.06 22.4%


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.9795e-02   1.9331e-05   13.24   0.64   0.55   1.39 
  256   1.1129e-02   2.1737e-05   23.55   0.56   0.44   1.23 
  512   6.2698e-03   2.4491e-05   41.81   0.49   0.33   1.09 
  1024   3.8581e-03   3.0141e-05   67.95   0.41   0.30   0.93 
  2048   2.6769e-03   4.1827e-05   97.93   0.30   0.23   0.65 
  4096   2.0590e-03   6.4345e-05   127.31   0.21   0.18   0.45 
  8192   1.9755e-03   1.2347e-04   132.70   0.10   0.12   0.16 
  16384   1.7541e-03   2.1927e-04   149.44   0.06   0.06   0.09 
  32768   1.6746e-03   4.1864e-04   156.54   0.02   0.02   0.04 
  65536   1.5907e-03   7.9537e-04   164.79   0.02   0.02   0.03 
  131072   1.4899e-03   1.4899e-03   175.95   0.05   0.05   0.08 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   6 
  256   0   1   2   3   6 
  512   0   1   2   3   6 
  1024   0   1   2   3   6 
  2048   0   1   2   3   6 
  4096   0   1   2   3   6 
  8192   5   4   0   10   1 
  16384   4   5   0   10   1 
  32768   4   10   6   5   2 
  65536   0   10   2   6   1 
  131072   10   1   8   4   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   4 
  256    1   1   4 
  512    1   1   4 
  1024    1   1   5 
  2048    1   1   7 
  4096    1   2   7 
  8192    2   2   11 
  16384    1   3   11 
  32768    1   11   11 
  65536    3   11   11 
  131072    1   7   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.8404e-02   1.7972e-05   14.24   0.70   0.70   1.48 
  256   9.7334e-03   1.9011e-05   26.93   0.66   0.64   1.39 
  512   5.2850e-03   2.0645e-05   49.60   0.60   0.58   1.29 
  1024   3.0898e-03   2.4139e-05   84.84   0.49   0.31   1.11 
  2048   1.9945e-03   3.1164e-05   131.44   0.37   0.24   0.85 
  4096   1.4135e-03   4.4172e-05   185.46   0.27   0.17   0.61 
  8192   1.2710e-03   7.9435e-05   206.26   0.17   0.19   0.24 
  16384   1.0348e-03   1.2935e-04   253.33   0.13   0.15   0.20 
  32768   9.1681e-04   2.2920e-04   285.93   0.08   0.09   0.15 
  65536   6.9564e-04   3.4782e-04   376.84   0.04   0.04   0.11 
  131072   5.9745e-04   5.9745e-04   438.77   0.04   0.04   0.08 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   6 
  256   0   1   2   3   6 
  512   0   1   2   3   6 
  1024   0   1   2   3   6 
  2048   0   1   2   3   6 
  4096   0   2   1   3   6 
  8192   4   5   0   1   10 
  16384   4   5   10   2   9 
  32768   4   5   0   10   2 
  65536   5   10   4   0   7 
  131072   4   5   0   1   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   4 
  256    1   1   4 
  512    1   1   4 
  1024    1   1   4 
  2048    1   1   6 
  4096    1   1   7 
  8192    1   2   11 
  16384    1   2   11 
  32768    1   2   11 
  65536    1   6   11 
  131072    1   8   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.8490e-02   1.8057e-05   14.18   0.71   0.71   1.48 
  256   9.7503e-03   1.9044e-05   26.89   0.66   0.62   1.41 
  512   5.3186e-03   2.0776e-05   49.29   0.60   0.51   1.29 
  1024   3.0649e-03   2.3944e-05   85.53   0.49   0.31   1.12 
  2048   1.9747e-03   3.0855e-05   132.75   0.38   0.24   0.87 
  4096   1.4000e-03   4.3751e-05   187.24   0.27   0.17   0.62 
  8192   1.2424e-03   7.7653e-05   210.99   0.19   0.22   0.27 
  16384   1.0438e-03   1.3048e-04   251.13   0.11   0.13   0.15 
  32768   9.2248e-04   2.3062e-04   284.17   0.08   0.09   0.10 
  65536   7.2130e-04   3.6065e-04   363.43   0.02   0.02   0.04 
  131072   5.9544e-04   5.9544e-04   440.26   0.05   0.04   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   6 
  256   0   1   2   3   6 
  512   0   1   2   3   6 
  1024   0   1   2   3   6 
  2048   0   1   2   3   6 
  4096   0   1   2   3   6 
  8192   4   5   0   10   1 
  16384   4   5   0   10   1 
  32768   4   5   0   10   2 
  65536   4   5   10   8   6 
  131072   4   5   10   2   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   4 
  256    1   1   4 
  512    1   1   4 
  1024    1   1   4 
  2048    1   1   6 
  4096    1   3   7 
  8192    1   2   10 
  16384    2   2   11 
  32768    2   2   11 
  65536    3   11   11 
  131072    2   6   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.0194e-02   1.9721e-05   12.98   0.57   0.24   1.41 
  256   1.1333e-02   2.2134e-05   23.13   0.52   0.21   1.26 
  512   6.3397e-03   2.4764e-05   41.35   0.47   0.19   1.14 
  1024   3.9745e-03   3.1051e-05   65.96   0.38   0.17   0.92 
  2048   2.7618e-03   4.3153e-05   94.92   0.26   0.10   0.67 
  4096   2.1385e-03   6.6828e-05   122.58   0.18   0.07   0.43 
  8192   1.8577e-03   1.1610e-04   141.12   0.17   0.20   0.24 
  16384   1.6999e-03   2.1249e-04   154.21   0.10   0.10   0.17 
  32768   1.6450e-03   4.1125e-04   159.36   0.05   0.05   0.11 
  65536   1.5750e-03   7.8750e-04   166.44   0.03   0.03   0.06 
  131072   1.4995e-03   1.4995e-03   174.82   0.04   0.04   0.08 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   4   5 
  256   0   1   2   4   5 
  512   0   2   4   1   5 
  1024   0   2   1   4   5 
  2048   0   2   4   1   5 
  4096   0   2   4   1   5 
  8192   4   5   0   10   2 
  16384   4   5   0   10   6 
  32768   4   5   0   10   6 
  65536   4   0   2   6   5 
  131072   10   0   5   4   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   6 
  256    1   1   6 
  512    1   1   6 
  1024    1   1   7 
  2048    1   2   7 
  4096    1   3   7 
  8192    1   2   11 
  16384    2   2   11 
  32768    1   5   11 
  65536    1   9   11 
  131072    1   7   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.8943e-02   1.8499e-05   13.84   0.62   0.28   1.54 
  256   1.0044e-02   1.9617e-05   26.10   0.59   0.26   1.44 
  512   5.4252e-03   2.1192e-05   48.32   0.55   0.25   1.35 
  1024   3.1784e-03   2.4831e-05   82.48   0.47   0.21   1.14 
  2048   2.0213e-03   3.1582e-05   129.69   0.37   0.17   0.90 
  4096   1.4297e-03   4.4678e-05   183.36   0.27   0.13   0.64 
  8192   1.1753e-03   7.3457e-05   223.04   0.27   0.32   0.37 
  16384   1.0053e-03   1.2566e-04   260.76   0.15   0.18   0.24 
  32768   9.1160e-04   2.2790e-04   287.57   0.09   0.09   0.19 
  65536   6.8798e-04   3.4399e-04   381.03   0.06   0.07   0.12 
  131072   5.8234e-04   5.8234e-04   450.16   0.06   0.06   0.10 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   5 
  256   0   2   1   4   5 
  512   0   2   1   4   5 
  1024   0   2   1   4   5 
  2048   0   2   1   4   3 
  4096   0   2   1   4   5 
  8192   4   5   0   10   1 
  16384   4   5   0   10   2 
  32768   4   5   0   10   8 
  65536   5   4   0   10   8 
  131072   4   5   8   0   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   4 
  256    1   1   4 
  512    1   1   5 
  1024    1   1   6 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   2   2 
  16384    1   2   11 
  32768    1   2   11 
  65536    1   3   11 
  131072    1   4   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.8862e-02   1.8420e-05   13.90   0.64   0.26   1.63 
  256   9.9450e-03   1.9424e-05   26.36   0.62   0.25   1.55 
  512   5.4080e-03   2.1125e-05   48.47   0.56   0.23   1.42 
  1024   3.1127e-03   2.4318e-05   84.22   0.49   0.20   1.24 
  2048   1.9910e-03   3.1109e-05   131.67   0.38   0.15   0.97 
  4096   1.4064e-03   4.3949e-05   186.40   0.27   0.11   0.69 
  8192   1.1722e-03   7.3261e-05   223.64   0.26   0.31   0.37 
  16384   9.9991e-04   1.2499e-04   262.17   0.16   0.19   0.23 
  32768   9.3091e-04   2.3273e-04   281.60   0.07   0.08   0.11 
  65536   6.9779e-04   3.4889e-04   375.68   0.06   0.07   0.09 
  131072   5.9634e-04   5.9634e-04   439.59   0.05   0.04   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   5 
  256   0   1   2   4   5 
  512   0   1   2   4   5 
  1024   0   1   2   4   5 
  2048   0   2   1   4   5 
  4096   0   2   1   4   5 
  8192   4   5   0   10   2 
  16384   4   5   0   10   2 
  32768   4   5   0   10   6 
  65536   4   5   7   10   8 
  131072   5   4   0   6   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   4 
  256    1   1   6 
  512    1   1   6 
  1024    1   1   6 
  2048    1   1   6 
  4096    1   1   7 
  8192    1   2   2 
  16384    1   2   11 
  32768    2   2   11 
  65536    1   2   11 
  131072    2   6   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:33 EDT.
86227 accesses since 1/2/96.