PSTSWM AlphaSC-667 Point-to-Point Communication Performance

Performance Studies using

PSTSWM


Compaq AlphaServer SC SWAP Performance

(ordered swap of 128KB message using MPI within a node)

(performance measured per processor when all processors in node communicating)

>
Date/Person: July 17, 2000 / P. Worley
Platform: Compaq AlphaServer SC at Oak Ridge National Laboratory (falcon.ccs.ornl.gov):
     64 ES40 4-way SMP nodes (667 MHz Alpha 21264a with 8MB L2 cache)
Environment: SC System v1.0; Digital UNIX V5.0;   RMS 2.37
Communication Library: MPI
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 1
2 and 3
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 207.10 11.65 66.8%
1 iter. 396.11 11.51 69.6%
10 iter. 417.83 12.08 68.3%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 201.28 11.93 65.8%
1 iter. 357.44 12.01 68.2%
10 iter. 414.56 12.51 67.3%
cache inv. w/overlap 199.77 11.51 67.2%
1 iter. w/overlap 256.75 11.50 67.8%
10 iter. w/overlap 412.38 12.36 68.4%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 202.80 12.95 64.3%
1 iter. 345.56 12.39 67.9%
10 iter. 415.39 12.60 67.8%
cache inv. w/overlap 205.44 12.31 66.1%
1 iter. w/overlap 275.36 12.54 66.4%
10 iter. w/overlap 419.39 15.28 64.0%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 202.05 12.94 64.7%
1 iter. 406.05 12.60 68.3%
10 iter. 407.61 12.68 67.9%
cache inv. w/overlap 202.65 12.47 65.7%
1 iter. w/overlap 410.11 12.78 67.5%
10 iter. w/overlap 417.16 15.30 64.5%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 199.35 27.38 44.0%
1 iter. 392.31 27.36 46.5%
10 iter. 407.40 27.63 46.4%
cache inv. w/overlap 201.59 12.93 64.8%
1 iter. w/overlap 415.05 12.25 68.5%
10 iter. w/overlap 418.37 15.24 64.3%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 198.62 27.13 45.0%
1 iter. 398.27 27.17 47.3%
10 iter. 408.22 27.13 47.4%
cache inv. w/overlap 199.08 12.57 65.9%
1 iter. w/overlap 409.22 12.26 68.6%
10 iter. w/overlap 412.85 14.87 65.5%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 204.23 25.72 46.7%
1 iter. 409.73 26.02 48.4%
10 iter. 391.47 25.66 48.8%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 200.75 19.46 53.3%
1 iter. 406.93 19.52 55.9%
10 iter. 399.83 19.60 55.4%
cache inv. w/overlap 197.01 19.51 53.5%
1 iter. w/overlap 408.45 19.50 55.7%
10 iter. w/overlap 390.11 20.38 55.1%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 199.38 18.61 55.4%
1 iter. 405.92 18.73 58.0%
10 iter. 410.88 18.75 58.0%
cache inv. w/overlap 201.03 18.77 55.3%
1 iter. w/overlap 410.24 18.47 58.5%
10 iter. w/overlap 413.41 20.21 58.0%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 198.53 18.60 55.8%
1 iter. 402.06 19.20 57.3%
10 iter. 409.05 18.98 57.6%
cache inv. w/overlap 199.02 19.17 54.3%
1 iter. w/overlap 410.76 19.02 57.0%
10 iter. w/overlap 403.09 22.60 52.9%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 201.77 18.68 54.7%
1 iter. 409.86 19.25 56.4%
10 iter. 415.01 19.48 56.3%


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.1295e-02   3.0561e-05   8.38   0.43   0.45   0.94 
  256   1.9073e-02   3.7253e-05   13.74   0.35   0.37   0.73 
  512   2.1645e-02   8.4552e-05   12.11   0.12   0.12   0.28 
  1024   1.1300e-02   8.8281e-05   23.20   0.10   0.09   0.24 
  2048   5.9576e-03   9.3088e-05   44.00   0.09   0.06   0.21 
  4096   3.3244e-03   1.0389e-04   78.85   0.07   0.05   0.18 
  8192   2.1438e-03   1.3399e-04   122.28   0.04   0.02   0.12 
  16384   1.6278e-03   2.0347e-04   161.04   0.04   0.03   0.08 
  32768   1.4950e-03   3.7375e-04   175.35   0.03   0.03   0.07 
  65536   1.4302e-03   7.1510e-04   183.29   0.02   0.02   0.03 
  131072   1.2658e-03   1.2658e-03   207.10   0.03   0.03   0.04 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   1   0   2   3   8 
  256   1   0   2   3   7 
  512   1   0   2   3   10 
  1024   0   1   3   2   10 
  2048   0   1   2   3   7 
  4096   10   7   0   1   3 
  8192   1   7   8   2   3 
  16384   0   2   3   10   1 
  32768   0   3   2   6   1 
  65536   0   10   6   3   2 
  131072   0   6   2   3   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   2   4 
  256    1   2   4 
  512    2   4   8 
  1024    4   4   11 
  2048    1   5   11 
  4096    1   5   11 
  8192    3   8   11 
  16384    2   9   11 
  32768    1   9   11 
  65536    3   11   11 
  131072    1   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.0975e-02   3.0249e-05   8.46   0.43   0.47   0.93 
  256   1.8939e-02   3.6991e-05   13.84   0.33   0.36   0.71 
  512   2.1574e-02   8.4272e-05   12.15   0.12   0.12   0.28 
  1024   1.0919e-02   8.5302e-05   24.01   0.12   0.11   0.28 
  2048   5.5882e-03   8.7316e-05   46.91   0.11   0.09   0.27 
  4096   3.0218e-03   9.4431e-05   86.75   0.08   0.05   0.22 
  8192   1.6598e-03   1.0374e-04   157.94   0.08   0.04   0.24 
  16384   1.0606e-03   1.3258e-04   247.17   0.07   0.04   0.21 
  32768   8.5640e-04   2.1410e-04   306.10   0.08   0.05   0.19 
  65536   7.7920e-04   3.8960e-04   336.43   0.04   0.02   0.12 
  131072   6.3960e-04   6.3960e-04   409.86   0.04   0.02   0.19 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   8 
  256   1   0   2   3   7 
  512   0   1   2   3   10 
  1024   1   0   2   3   10 
  2048   1   0   2   3   10 
  4096   1   0   2   3   7 
  8192   0   1   7   3   10 
  16384   0   10   7   8   3 
  32768   0   10   8   9   3 
  65536   0   3   10   6   9 
  131072   10   6   7   3   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   2   4 
  256    1   2   4 
  512    2   4   8 
  1024    2   4   9 
  2048    1   4   9 
  4096    2   6   11 
  8192    2   7   11 
  16384    2   6   11 
  32768    1   3   11 
  65536    1   7   11 
  131072    5   9   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.1291e-02   3.0558e-05   8.38   0.42   0.45   0.93 
  256   1.8804e-02   3.6726e-05   13.94   0.34   0.36   0.74 
  512   2.1506e-02   8.4009e-05   12.19   0.13   0.13   0.28 
  1024   1.0826e-02   8.4579e-05   24.21   0.12   0.11   0.28 
  2048   5.5824e-03   8.7224e-05   46.96   0.11   0.09   0.27 
  4096   2.9337e-03   9.1679e-05   89.36   0.11   0.07   0.25 
  8192   1.6432e-03   1.0270e-04   159.54   0.09   0.04   0.26 
  16384   1.0101e-03   1.2626e-04   259.53   0.07   0.04   0.18 
  32768   8.5820e-04   2.1455e-04   305.46   0.05   0.04   0.11 
  65536   7.7924e-04   3.8962e-04   336.41   0.03   0.02   0.14 
  131072   6.2740e-04   6.2740e-04   417.83   0.02   0.02   0.07 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   8 
  256   1   0   2   3   10 
  512   1   0   2   3   7 
  1024   0   1   2   3   7 
  2048   1   0   2   3   7 
  4096   1   0   2   3   7 
  8192   0   1   7   10   3 
  16384   0   1   8   3   10 
  32768   0   10   2   3   9 
  65536   0   2   1   3   10 
  131072   0   2   10   1   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   3   4 
  256    2   2   4 
  512    2   4   8 
  1024    2   4   8 
  2048    2   4   9 
  4096    1   3   10 
  8192    2   8   10 
  16384    1   7   11 
  32768    1   6   11 
  65536    3   10   11 
  131072    4   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.1099e-02   3.0370e-05   8.43   0.28   0.08   0.89 
  256   1.9289e-02   3.7673e-05   13.59   0.21   0.07   0.69 
  512   2.1989e-02   8.5896e-05   11.92   0.07   0.03   0.24 
  1024   1.1227e-02   8.7708e-05   23.35   0.07   0.05   0.23 
  2048   5.9666e-03   9.3228e-05   43.94   0.05   0.04   0.20 
  4096   3.3828e-03   1.0571e-04   77.49   0.03   0.02   0.13 
  8192   2.1438e-03   1.3399e-04   122.28   0.03   0.02   0.13 
  16384   1.6350e-03   2.0437e-04   160.33   0.04   0.04   0.08 
  32768   1.5126e-03   3.7815e-04   173.31   0.03   0.03   0.08 
  65536   1.4406e-03   7.2030e-04   181.97   0.02   0.02   0.05 
  131072   1.2574e-03   1.2574e-03   208.48   0.04   0.04   0.06 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   1   0   2   3   4 
  256   0   1   4   2   3 
  512   1   0   2   3   4 
  1024   0   1   4   2   3 
  2048   1   0   3   2   4 
  4096   10   1   7   0   8 
  8192   10   1   4   2   8 
  16384   0   2   10   8   4 
  32768   0   6   10   4   2 
  65536   0   2   8   6   10 
  131072   0   2   3   4   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   2   6 
  256    2   4   6 
  512    2   6   11 
  1024    2   6   11 
  2048    2   7   11 
  4096    2   10   11 
  8192    3   10   11 
  16384    1   8   11 
  32768    1   9   11 
  65536    4   10   11 
  131072    1   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.0689e-02   2.9970e-05   8.54   0.28   0.07   0.94 
  256   1.8614e-02   3.6355e-05   14.08   0.23   0.07   0.74 
  512   2.1468e-02   8.3858e-05   12.21   0.08   0.03   0.26 
  1024   1.0847e-02   8.4739e-05   24.17   0.07   0.03   0.24 
  2048   5.6232e-03   8.7863e-05   46.62   0.06   0.03   0.22 
  4096   2.9828e-03   9.3212e-05   87.89   0.05   0.04   0.21 
  8192   1.6734e-03   1.0459e-04   156.65   0.04   0.03   0.19 
  16384   1.0602e-03   1.3253e-04   247.26   0.05   0.05   0.15 
  32768   8.7340e-04   2.1835e-04   300.14   0.06   0.06   0.19 
  65536   7.9420e-04   3.9710e-04   330.07   0.17   0.02   0.89 
  131072   6.3160e-04   6.3160e-04   415.05   0.12   0.01   0.62 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   1   0   4   5   2 
  256   0   1   3   4   5 
  512   1   0   4   2   5 
  1024   0   1   4   2   3 
  2048   0   1   4   5   3 
  4096   0   1   3   4   5 
  8192   3   4   10   0   5 
  16384   0   4   10   8   5 
  32768   10   4   8   0   5 
  65536   8   5   9   7   10 
  131072   4   9   8   3   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   2   6 
  256    1   2   6 
  512    2   6   10 
  1024    1   6   11 
  2048    2   6   11 
  4096    2   6   11 
  8192    2   9   11 
  16384    3   6   11 
  32768    2   5   11 
  65536    3   8   9 
  131072    1   8   9 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.1312e-02   3.0578e-05   8.37   0.35   0.21   0.90 
  256   1.8846e-02   3.6808e-05   13.91   0.29   0.18   0.72 
  512   2.2018e-02   8.6008e-05   11.91   0.10   0.09   0.25 
  1024   1.1029e-02   8.6165e-05   23.77   0.10   0.09   0.25 
  2048   5.6517e-03   8.8308e-05   46.38   0.09   0.08   0.23 
  4096   2.9704e-03   9.2824e-05   88.25   0.08   0.06   0.24 
  8192   1.6298e-03   1.0186e-04   160.84   0.08   0.06   0.25 
  16384   1.0069e-03   1.2586e-04   260.34   0.07   0.07   0.16 
  32768   8.6616e-04   2.1654e-04   302.65   0.06   0.03   0.20 
  65536   7.7006e-04   3.8503e-04   340.42   0.05   0.02   0.23 
  131072   6.2506e-04   6.2506e-04   419.39   0.02   0.01   0.08 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   5   4   3 
  256   0   1   4   5   3 
  512   0   1   2   4   3 
  1024   0   1   2   4   3 
  2048   0   1   2   4   10 
  4096   1   0   10   2   7 
  8192   1   0   10   7   4 
  16384   0   10   4   8   1 
  32768   10   2   1   8   3 
  65536   0   2   3   1   5 
  131072   2   4   3   0   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   2   6 
  256    1   2   6 
  512    2   2   10 
  1024    2   2   11 
  2048    2   3   11 
  4096    2   2   11 
  8192    1   4   10 
  16384    2   3   11 
  32768    2   8   11 
  65536    1   9   11 
  131072    4   9   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:04:33 EDT.
86665 accesses since 1/2/96.