COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(ordered swap of 8KB message using MPI within a node)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 256 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 1
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 85.66 8.61 18.0%
1 iter. 181.19 8.47 37.5%
10 iter. 187.11 8.48 38.8%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 75.24 9.42 17.3%
1 iter. 167.40 9.34 38.2%
10 iter. 176.74 9.36 40.4%
cache inv. w/overlap 67.52 9.91 16.3%
1 iter. w/overlap 161.94 9.94 39.0%
10 iter. w/overlap 176.33 9.80 42.2%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 74.73 9.60 15.9%
1 iter. 172.08 9.51 40.0%
10 iter. 172.58 9.48 39.7%
cache inv. w/overlap 79.67 9.91 19.3%
1 iter. w/overlap 169.24 9.87 40.8%
10 iter. w/overlap 178.25 9.79 42.6%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 73.48 10.35 18.6%
1 iter. 163.49 10.24 40.9%
10 iter. 171.46 10.25 42.9%
cache inv. w/overlap 71.10 11.06 19.2%
1 iter. w/overlap 161.44 11.11 43.2%
10 iter. w/overlap 169.04 10.95 45.2%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 66.21 14.11 11.9%
1 iter. 186.90 14.21 32.4%
10 iter. 209.11 14.22 36.3%
cache inv. w/overlap 83.11 10.04 10.2%
1 iter. w/overlap 215.40 10.18 26.8%
10 iter. w/overlap 224.86 9.89 27.1%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 64.20 14.89 19.1%
1 iter. 184.22 14.89 33.5%
10 iter. 205.32 14.86 37.2%
cache inv. w/overlap 82.40 11.01 11.1%
1 iter. w/overlap 191.08 11.14 27.5%
10 iter. w/overlap 222.27 10.86 29.5%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 76.05 11.46 21.3%
1 iter. 164.19 11.45 45.9%
10 iter. 165.00 11.84 47.4%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 70.87 20.97 18.1%
1 iter. 167.58 20.84 42.6%
10 iter. 171.75 20.79 43.6%
cache inv. w/overlap 64.06 21.40 16.7%
1 iter. w/overlap 161.77 21.55 42.6%
10 iter. w/overlap 168.19 21.68 44.5%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 69.47 21.18 18.0%
1 iter. 163.49 21.00 41.9%
10 iter. 171.50 21.02 44.0%
cache inv. w/overlap 76.13 21.53 20.0%
1 iter. w/overlap 161.60 21.74 42.9%
10 iter. w/overlap 167.37 21.37 43.6%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 67.19 21.97 18.0%
1 iter. 163.84 21.83 43.7%
10 iter. 168.54 21.85 44.9%
cache inv. w/overlap 70.58 22.64 19.5%
1 iter. w/overlap 161.61 22.84 45.1%
10 iter. w/overlap 165.07 23.57 47.5%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 74.33 20.16 18.3%
1 iter. 170.74 19.95 41.6%
10 iter. 176.50 19.98 43.0%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.7865e-02   1.7446e-05   0.92   0.72   0.65   1.55 
  16   9.0472e-03   1.7670e-05   1.81   0.72   0.67   1.54 
  32   4.5886e-03   1.7924e-05   3.57   0.72   0.69   1.53 
  64   2.4077e-03   1.8810e-05   6.80   0.69   0.65   1.49 
  128   1.3030e-03   2.0359e-05   12.57   0.65   0.63   1.35 
  256   7.5798e-04   2.3687e-05   21.62   0.58   0.57   1.19 
  512   4.4904e-04   2.8065e-05   36.49   0.52   0.43   1.04 
  1024   2.9468e-04   3.6835e-05   55.60   0.46   0.47   0.90 
  2048   2.2745e-04   5.6862e-05   72.03   0.37   0.43   0.62 
  4096   1.9128e-04   9.5638e-05   85.66   0.29   0.35   0.49 
  8192   2.0979e-04   2.0979e-04   78.10   0.10   0.10   0.22 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   3   6 
  16   0   1   2   3   6 
  32   0   1   2   3   6 
  64   0   1   2   3   6 
  128   0   1   2   3   6 
  256   0   1   2   3   6 
  512   0   1   2   3   6 
  1024   0   2   1   3   6 
  2048   0   1   2   3   6 
  4096   0   6   1   2   3 
  8192   0   2   10   6   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   4 
  32    1   1   4 
  64    1   1   4 
  128    1   1   4 
  256    1   1   4 
  512    1   1   4 
  1024    1   1   5 
  2048    1   1   4 
  4096    1   1   5 
  8192    1   2   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.7496e-02   1.7086e-05   0.94   0.73   0.68   1.56 
  16   8.8214e-03   1.7229e-05   1.86   0.73   0.68   1.55 
  32   4.4784e-03   1.7494e-05   3.66   0.71   0.67   1.52 
  64   2.2653e-03   1.7698e-05   7.23   0.71   0.73   1.51 
  128   1.1667e-03   1.8230e-05   14.04   0.70   0.71   1.47 
  256   6.1989e-04   1.9372e-05   26.43   0.66   0.62   1.39 
  512   3.3840e-04   2.1150e-05   48.42   0.60   0.54   1.28 
  1024   1.9766e-04   2.4707e-05   82.89   0.49   0.34   1.11 
  2048   1.3213e-04   3.3032e-05   124.00   0.34   0.23   0.80 
  4096   9.0425e-05   4.5213e-05   181.19   0.29   0.21   0.62 
  8192   8.7660e-05   8.7660e-05   186.90   0.12   0.13   0.27 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   3   6 
  16   0   1   2   3   6 
  32   0   1   2   3   6 
  64   0   1   2   3   6 
  128   0   1   2   3   6 
  256   0   1   2   3   6 
  512   0   1   2   3   6 
  1024   0   1   2   3   6 
  2048   0   2   1   3   6 
  4096   0   2   1   6   3 
  8192   4   5   10   0   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   4 
  32    1   1   4 
  64    1   1   4 
  128    1   1   4 
  256    1   1   4 
  512    1   1   4 
  1024    1   1   5 
  2048    1   3   6 
  4096    1   1   7 
  8192    1   2   10 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.7470e-02   1.7060e-05   0.94   0.73   0.68   1.56 
  16   8.7824e-03   1.7153e-05   1.87   0.73   0.69   1.55 
  32   4.4436e-03   1.7358e-05   3.69   0.73   0.69   1.54 
  64   2.2658e-03   1.7702e-05   7.23   0.72   0.72   1.51 
  128   1.1646e-03   1.8197e-05   14.07   0.70   0.67   1.48 
  256   6.1495e-04   1.9217e-05   26.64   0.66   0.62   1.40 
  512   3.3611e-04   2.1007e-05   48.75   0.58   0.48   1.28 
  1024   1.9268e-04   2.4085e-05   85.03   0.49   0.31   1.11 
  2048   1.2433e-04   3.1082e-05   131.78   0.38   0.24   0.86 
  4096   8.7564e-05   4.3782e-05   187.11   0.29   0.18   0.63 
  8192   7.8351e-05   7.8351e-05   209.11   0.18   0.22   0.27 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   3   6 
  16   0   1   2   3   6 
  32   0   1   2   3   6 
  64   0   1   2   3   6 
  128   0   1   2   3   6 
  256   0   1   2   3   6 
  512   0   1   2   3   6 
  1024   0   1   2   3   6 
  2048   0   1   2   3   6 
  4096   0   1   2   3   6 
  8192   4   5   10   0   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   4 
  32    1   1   4 
  64    1   1   4 
  128    1   1   4 
  256    1   1   4 
  512    1   1   4 
  1024    1   1   4 
  2048    1   1   6 
  4096    1   1   7 
  8192    1   2   10 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.8211e-02   1.7785e-05   0.90   0.64   0.26   1.57 
  16   9.2801e-03   1.8125e-05   1.77   0.63   0.25   1.55 
  32   4.7201e-03   1.8438e-05   3.47   0.63   0.26   1.53 
  64   2.4638e-03   1.9249e-05   6.65   0.61   0.24   1.49 
  128   1.3266e-03   2.0728e-05   12.35   0.58   0.26   1.38 
  256   7.7266e-04   2.4146e-05   21.20   0.52   0.24   1.22 
  512   4.6149e-04   2.8843e-05   35.50   0.46   0.23   1.06 
  1024   3.1309e-04   3.9136e-05   52.33   0.38   0.23   0.88 
  2048   2.2564e-04   5.6410e-05   72.61   0.35   0.26   0.78 
  4096   1.8681e-04   9.3404e-05   87.70   0.28   0.23   0.65 
  8192   1.9713e-04   1.9713e-04   83.11   0.11   0.09   0.30 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   4   5 
  16   0   2   1   4   3 
  32   0   1   2   4   5 
  64   0   2   1   4   3 
  128   0   2   4   1   5 
  256   0   2   4   1   5 
  512   0   2   4   1   5 
  1024   0   2   4   6   3 
  2048   0   2   6   4   5 
  4096   0   6   2   4   5 
  8192   4   5   0   6   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   6 
  32    1   1   5 
  64    1   1   6 
  128    1   1   5 
  256    1   1   6 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   5 
  4096    1   1   6 
  8192    2   5   9 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.7900e-02   1.7480e-05   0.92   0.66   0.28   1.62 
  16   9.0188e-03   1.7615e-05   1.82   0.66   0.29   1.61 
  32   4.5866e-03   1.7916e-05   3.57   0.64   0.27   1.58 
  64   2.3259e-03   1.8171e-05   7.04   0.64   0.27   1.57 
  128   1.1959e-03   1.8685e-05   13.70   0.63   0.27   1.53 
  256   6.3362e-04   1.9801e-05   25.86   0.59   0.27   1.45 
  512   3.4691e-04   2.1682e-05   47.23   0.55   0.24   1.33 
  1024   2.0128e-04   2.5160e-05   81.40   0.48   0.22   1.16 
  2048   1.2819e-04   3.2048e-05   127.81   0.38   0.19   0.90 
  4096   9.3192e-05   4.6596e-05   175.81   0.25   0.09   0.64 
  8192   7.6064e-05   7.6064e-05   215.40   0.29   0.33   0.37 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   4   5 
  16   0   2   1   4   5 
  32   0   2   1   4   3 
  64   0   1   2   4   5 
  128   0   2   1   4   5 
  256   0   2   1   4   5 
  512   0   2   1   4   5 
  1024   0   2   1   4   5 
  2048   0   2   4   1   6 
  4096   0   2   4   6   1 
  8192   4   5   2   10   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   4 
  32    1   1   4 
  64    1   1   4 
  128    1   1   4 
  256    1   1   4 
  512    1   1   6 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   2   7 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.7692e-02   1.7277e-05   0.93   0.68   0.27   1.73 
  16   8.8877e-03   1.7359e-05   1.84   0.68   0.27   1.72 
  32   4.5197e-03   1.7655e-05   3.63   0.66   0.26   1.69 
  64   2.2966e-03   1.7943e-05   7.13   0.65   0.26   1.67 
  128   1.1795e-03   1.8430e-05   13.89   0.65   0.26   1.63 
  256   6.2226e-04   1.9445e-05   26.33   0.61   0.25   1.54 
  512   3.3972e-04   2.1233e-05   48.23   0.56   0.23   1.40 
  1024   1.9491e-04   2.4364e-05   84.06   0.49   0.20   1.23 
  2048   1.2472e-04   3.1181e-05   131.36   0.38   0.15   0.93 
  4096   8.9883e-05   4.4941e-05   182.28   0.23   0.08   0.61 
  8192   7.2862e-05   7.2862e-05   224.86   0.27   0.32   0.40 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   4   5 
  16   0   1   2   4   5 
  32   0   1   2   4   5 
  64   0   1   2   4   5 
  128   0   2   1   4   5 
  256   0   1   2   4   5 
  512   0   2   1   4   5 
  1024   0   2   1   4   5 
  2048   0   2   4   1   3 
  4096   0   2   4   1   5 
  8192   4   5   0   10   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   4 
  16    1   1   4 
  32    1   1   4 
  64    1   1   4 
  128    1   1   4 
  256    1   1   6 
  512    1   1   6 
  1024    1   1   6 
  2048    1   1   6 
  4096    1   4   7 
  8192    1   2   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:37 EDT.
86312 accesses since 1/2/96.