PSTSWM AlphaSC-667 Point-to-Point Communication Performance

Performance Studies using

PSTSWM


Compaq AlphaServer SC SWAP Performance

(unordered swap of 128KB message using MPI within a node)

(performance measured per processor when all processors in node communicating)

< tr>
Date/Person: July 17, 2000 / P. Worley
Platform: Compaq AlphaServer SC at Oak Ridge National Laboratory (falcon.ccs.ornl.gov):
     64 ES40 4-way SMP nodes (667 MHz Alpha 21264a with 8MB L2 cache)
Environment: SC System v1.0; Digital UNIX V5.0;   RMS 2.37
Communication Library: MPI
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 1
2 and 3
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered simple swap
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 175.65 36.05 55.7%
1 iter. 91.43 36.68 87.5%
10 iter. 333.49 36.97 58.1%

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 215.15 43.67 49.7%
1 iter. 406.93 43.62 51.5%
10 iter. 413.87 41.84 53.5%
cache inv. w/overlap 215.01 47.56 45.1%
1 iter. w/overlap 421.72 48.51 46.4%
10 iter. w/overlap 409.59 38.90 56.5%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 241.43 33.54 58.5%
1 iter. 422.95 32.85 60.9%
10 iter. 426.07 35.45 58.4%
cache inv. w/overlap 244.40 22.78 66.3%
1 iter. w/overlap 387.67 23.38 66.9%
10 iter. w/overlap 449.75 26.84 65.5%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 239.10 31.62 60.6%
1 iter. 406.68 27.97 66.1%
10 iter. 433.58 31.32 62.6%
cache inv. w/overlap 244.63 23.31 65.8%
1 iter. w/overlap 391.38 22.92 68.1%
10 iter. w/overlap 446.28 25.28 68.0%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 231.74 68.64 36.9%
1 iter. 382.80 70.48 36.5%
10 iter. 426.31 69.51 38.1%
cache inv. w/overlap 243.27 22.96 66.4%
1 iter. w/overlap 431.87 23.25 67.3%
10 iter. w/overlap 450.00 25.80 66.8%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 234.22 69.21 36.4%
1 iter. 408.58 69.45 37.8%
10 iter. 418.36 69.83 37.4%
cache inv. w/overlap 243.49 23.50 65.3%
1 iter. w/overlap 436.32 23.15 67.5%
10 iter. w/overlap 444.54 25.23 67.8%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 243.63 32.21 59.8%
1 iter. 411.92 32.10 61.9%
10 iter. 419.58 33.18 60.4%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 213.26 37.19 56.0%
1 iter. 404.17 36.98 58.4%
10 iter. 422.68 36.79 58.7%
cache inv. w/overlap 235.61 59.87 53.7%
1 iter. w/overlap 337.81 59.45 54.8%
10 iter. w/overlap 412.46 45.79 64.7%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 240.32 37.10 56.7%
1 iter. 402.56 37.34 58.6%
10 iter. 417.45 36.95 59.0%
cache inv. w/overlap 245.32 37.44 56.6%
1 iter. w/overlap 354.25 36.75 58.3%
10 iter. w/overlap 419.22 38.78 58.1%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 238.10 38.23 55.6%
1 iter. 399.49 38.20 58.0%
10 iter. 415.85 38.34 57.7%
cache inv. w/overlap 242.23 33.07 59.1%
1 iter. w/overlap 428.34 32.74 61.2%
10 iter. w/overlap 449.22 34.30 60.9%


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.7664e-02   3.6782e-05   6.96   0.30   0.21   0.95 
  256   2.1170e-02   4.1348e-05   12.38   0.29   0.26   0.80 
  512   2.3163e-02   9.0480e-05   11.32   0.08   0.06   0.28 
  1024   1.1737e-02   9.1695e-05   22.33   0.09   0.05   0.28 
  2048   5.6282e-03   8.7941e-05   46.58   0.12   0.09   0.39 
  4096   2.8596e-03   8.9362e-05   91.67   0.14   0.10   0.43 
  8192   1.6846e-03   1.0529e-04   155.61   0.09   0.06   0.21 
  16384   1.3380e-03   1.6725e-04   195.92   0.07   0.07   0.21 
  32768   1.1922e-03   2.9805e-04   219.88   0.10   0.11   0.25 
  65536   1.1162e-03   5.5810e-04   234.85   0.10   0.09   0.39 
  131072   1.0760e-03   1.0760e-03   243.63   0.08   0.04   0.39 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   3   2   0   7 
  256   6   2   3   0   7 
  512   6   3   2   0   7 
  1024   6   2   3   8   0 
  2048   6   3   2   0   8 
  4096   6   3   2   1   8 
  8192   6   2   9   1   3 
  16384   2   3   8   6   9 
  32768   6   9   3   8   2 
  65536   6   2   8   9   3 
  131072   6   2   8   3   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   3   7 
  256    2   3   5 
  512    3   4   8 
  1024    1   6   8 
  2048    3   4   8 
  4096    1   4   8 
  8192    1   4   10 
  16384    3   5   10 
  32768    3   4   9 
  65536    1   5   9 
  131072    2   6   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.5555e-02   3.4721e-05   7.37   0.37   0.29   1.06 
  256   2.0788e-02   4.0602e-05   12.61   0.30   0.28   0.82 
  512   2.3050e-02   9.0039e-05   11.37   0.09   0.07   0.28 
  1024   1.1575e-02   9.0428e-05   22.65   0.09   0.06   0.29 
  2048   5.7134e-03   8.9272e-05   45.88   0.11   0.07   0.32 
  4096   2.8642e-03   8.9506e-05   91.52   0.10   0.08   0.33 
  8192   1.4554e-03   9.0962e-05   180.12   1.15   0.09   10.47 
  16384   8.9020e-04   1.1127e-04   294.48   0.92   0.11   8.14 
  32768   7.4220e-04   1.8555e-04   353.20   3.24   0.08   31.60 
  65536   6.8200e-04   3.4100e-04   384.38   2.15   0.06   21.15 
  131072   6.1980e-04   6.1980e-04   422.95   3.55   0.05   35.14 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   3   6   2   0   7 
  256   2   6   3   0   7 
  512   3   2   6   7   1 
  1024   3   2   6   0   1 
  2048   3   2   6   0   1 
  4096   6   0   2   3   1 
  8192   2   1   6   3   9 
  16384   2   3   6   1   9 
  32768   2   9   3   1   8 
  65536   6   3   8   2   7 
  131072   2   6   5   1   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   2   4 
  256    2   3   4 
  512    3   3   8 
  1024    3   3   8 
  2048    1   3   8 
  4096    4   4   8 
  8192    2   4   7 
  16384    1   2   7 
  32768    1   1   9 
  65536    1   5   9 
  131072    1   6   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.7350e-02   3.6475e-05   7.02   0.32   0.22   0.97 
  256   2.1025e-02   4.1064e-05   12.47   0.29   0.26   0.80 
  512   2.3036e-02   8.9986e-05   11.38   0.09   0.06   0.29 
  1024   1.1583e-02   9.0495e-05   22.63   0.09   0.06   0.28 
  2048   5.8774e-03   9.1834e-05   44.60   0.08   0.04   0.27 
  4096   2.8236e-03   8.8237e-05   92.84   0.11   0.09   0.35 
  8192   1.4387e-03   8.9917e-05   182.21   0.11   0.08   0.39 
  16384   8.6438e-04   1.0805e-04   303.27   0.09   0.04   0.24 
  32768   7.3758e-04   1.8440e-04   355.41   0.06   0.03   0.24 
  65536   6.4452e-04   3.2226e-04   406.73   0.06   0.04   0.24 
  131072   6.0460e-04   6.0460e-04   433.58   0.06   0.04   0.30 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   3   6   2   0   7 
  256   6   2   3   0   7 
  512   6   3   2   7   1 
  1024   2   6   3   0   1 
  2048   6   2   3   1   9 
  4096   6   2   3   0   1 
  8192   1   2   6   3   0 
  16384   3   7   9   6   2 
  32768   9   6   7   3   2 
  65536   2   3   4   5   9 
  131072   3   4   2   7   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   2   7 
  256    2   3   4 
  512    2   3   8 
  1024    3   3   8 
  2048    2   7   8 
  4096    3   4   8 
  8192    1   5   8 
  16384    1   6   10 
  32768    1   6   10 
  65536    2   6   10 
  131072    1   9   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.0505e-02   2.9790e-05   8.59   0.33   0.33   1.24 
  256   1.8532e-02   3.6196e-05   14.15   0.26   0.28   1.03 
  512   2.0425e-02   7.9787e-05   12.83   0.16   0.14   0.74 
  1024   1.0669e-02   8.3352e-05   24.57   0.12   0.07   0.64 
  2048   5.5810e-03   8.7203e-05   46.97   0.08   0.07   0.41 
  4096   2.8798e-03   8.9994e-05   91.03   0.06   0.06   0.19 
  8192   1.7334e-03   1.0834e-04   151.23   0.07   0.06   0.24 
  16384   1.3456e-03   1.6820e-04   194.82   0.10   0.09   0.21 
  32768   1.1754e-03   2.9385e-04   223.03   0.07   0.03   0.29 
  65536   1.1034e-03   5.5170e-04   237.58   0.08   0.03   0.40 
  131072   1.0686e-03   1.0686e-03   245.32   0.07   0.01   0.44 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   2   3   5   4   6 
  256   5   3   2   4   6 
  512   5   2   3   4   6 
  1024   3   4   2   5   9 
  2048   3   4   5   2   6 
  4096   2   3   4   5   1 
  8192   6   8   4   5   7 
  16384   6   1   7   8   2 
  32768   4   8   2   3   9 
  65536   4   2   5   8   3 
  131072   8   3   2   5   4 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    4   4   5 
  256    2   4   5 
  512    3   4   9 
  1024    3   4   9 
  2048    4   5   9 
  4096    3   5   10 
  8192    1   4   10 
  16384    1   1   10 
  32768    2   6   9 
  65536    3   7   9 
  131072    5   8   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.0418e-02   2.9705e-05   8.62   0.33   0.32   1.23 
  256   1.8681e-02   3.6486e-05   14.03   0.25   0.26   1.01 
  512   2.0046e-02   7.8304e-05   13.08   0.17   0.16   0.77 
  1024   1.0164e-02   7.9405e-05   25.79   0.16   0.14   0.74 
  2048   5.2630e-03   8.2234e-05   49.81   0.13   0.09   0.69 
  4096   2.7688e-03   8.6525e-05   94.68   0.07   0.03   0.34 
  8192   1.4586e-03   9.1163e-05   179.72   1.54   0.03   14.61 
  16384   9.1220e-04   1.1402e-04   287.38   0.62   0.19   4.86 
  32768   7.2680e-04   1.8170e-04   360.68   3.55   0.19   33.91 
  65536   6.3080e-04   3.1540e-04   415.57   0.48   0.20   3.25 
  131072   6.0080e-04   6.0080e-04   436.32   0.77   0.13   6.63 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   3   5   2   4   6 
  256   3   2   5   4   6 
  512   4   5   2   3   6 
  1024   4   5   2   3   9 
  2048   2   4   5   3   9 
  4096   2   5   4   6   3 
  8192   2   4   5   6   3 
  16384   2   5   1   6   7 
  32768   5   6   2   9   8 
  65536   4   5   9   2   3 
  131072   5   4   9   1   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    3   4   5 
  256    3   4   5 
  512    3   4   9 
  1024    2   4   9 
  2048    2   4   9 
  4096    3   6   9 
  8192    2   6   7 
  16384    1   4   7 
  32768    1   3   7 
  65536    1   3   6 
  131072    1   4   7 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.2529e-02   3.1766e-05   8.06   0.25   0.27   0.84 
  256   1.9321e-02   3.7737e-05   13.57   0.24   0.23   0.89 
  512   2.1617e-02   8.4442e-05   12.13   0.12   0.11   0.62 
  1024   1.0744e-02   8.3937e-05   24.40   0.13   0.11   0.64 
  2048   5.4558e-03   8.5247e-05   48.05   0.13   0.11   0.62 
  4096   2.8459e-03   8.8936e-05   92.11   0.10   0.07   0.43 
  8192   1.4685e-03   9.1783e-05   178.51   0.07   0.06   0.15 
  16384   8.6502e-04   1.0813e-04   303.05   0.05   0.03   0.21 
  32768   7.1218e-04   1.7804e-04   368.09   0.08   0.04   0.25 
  65536   6.2214e-04   3.1107e-04   421.36   0.08   0.03   0.29 
  131072   5.8254e-04   5.8254e-04   450.00   0.07   0.06   0.34 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   4   5   3   2   6 
  256   4   2   5   3   6 
  512   2   4   5   3   6 
  1024   4   2   3   5   6 
  2048   4   2   3   5   6 
  4096   6   0   4   2   5 
  8192   1   6   0   4   2 
  16384   4   3   2   5   6 
  32768   3   9   5   2   4 
  65536   3   5   2   4   9 
  131072   4   2   9   3   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    3   4   5 
  256    1   4   6 
  512    2   4   9 
  1024    2   4   9 
  2048    2   4   9 
  4096    1   3   9 
  8192    1   3   10 
  16384    2   6   10 
  32768    3   6   9 
  65536    3   6   9 
  131072    4   5   9 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:03:51 EDT.
87680 accesses since 1/2/96.