PSTSWM AlphaSC-667 Point-to-Point Communication Performance

Performance Studies using

PSTSWM


Compaq AlphaServer SC SWAP Performance

(unordered swap of 2MB message using MPI within a node)

(performance measured per processor when all processors in node communicating)

Date/Person: July 17, 2000 / P. Worley
Platform: Compaq AlphaServer SC at Oak Ridge National Laboratory (falcon.ccs.ornl.gov):
     64 ES40 4-way SMP nodes (667 MHz Alpha 21264a with 8MB L2 cache)
Environment: SC System v1.0; Digital UNIX V5.0;   RMS 2.37
Communication Library: MPI
SWAP size: 262144 REAL*8 floating point values each direction
Message size: Largest - 262144 REAL*8 floating point values
Smallest - 256 REAL*8 floating point values
Processors: 0 and 1
2 and 3
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered simple swap
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 258.54 99.34 56.7%
1 iter. 305.99 101.12 66.8%
10 iter. 359.04 99.95 56.0%

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 301.01 105.27 62.9%
1 iter. 380.85 93.59 66.5%
10 iter. 420.13 96.10 48.6%
cache inv. w/overlap 291.55 105.04 67.8%
1 iter. w/overlap 385.22 93.85 65.8%
10 iter. w/overlap 409.50 94.84 51.5%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 308.55 85.59 44.1%
1 iter. 468.04 91.89 39.2%
10 iter. 432.86 95.03 50.5%
cache inv. w/overlap 313.45 84.77 42.2%
1 iter. w/overlap 477.23 77.51 30.1%
10 iter. w/overlap 503.90 77.98 29.0%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 304.62 90.30 48.8%
1 iter. 458.40 90.69 38.3%
10 iter. 411.26 94.85 57.4%
cache inv. w/overlap 315.25 84.11 40.5%
1 iter. w/overlap 476.76 78.48 24.5%
10 iter. w/overlap 505.05 80.14 29.7%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 314.02 110.57 37.1%
1 iter. 479.32 115.21 36.2%
10 iter. 469.95 113.55 38.0%
cache inv. w/overlap 314.19 84.43 34.2%
1 iter. w/overlap 476.85 77.94 32.8%
10 iter. w/overlap 508.44 78.64 30.3%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 308.14 108.96 36.4%
1 iter. 464.00 114.22 34.6%
10 iter. 472.67 114.68 37.3%
cache inv. w/overlap 319.37 85.13 37.2%
1 iter. w/overlap 498.80 80.22 30.1%
10 iter. w/overlap 496.65 78.70 28.9%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 312.46 89.85 45.9%
1 iter. 459.57 95.04 47.0%
10 iter. 417.28 95.36 57.3%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 304.94 96.30 42.9%
1 iter. 455.58 96.83 35.4%
10 iter. 422.01 96.57 52.1%
cache inv. w/overlap 314.11 160.60 103.0%
1 iter. w/overlap 481.67 158.64 87.3%
10 iter. w/overlap 410.91 150.48 105.3%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 310.96 95.88 46.0%
1 iter. 468.69 94.58 40.4%
10 iter. 419.19 95.52 57.8%
cache inv. w/overlap 313.87 94.40 41.3%
1 iter. w/overlap 482.20 94.31 44.1%
10 iter. w/overlap 504.80 97.53 42.6%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 308.11 94.92 44.1%
1 iter. 458.97 95.02 40.4%
10 iter. 427.90 94.85 52.3%
cache inv. w/overlap 315.26 85.52 32.7%
1 iter. w/overlap 466.60 84.46 34.8%
10 iter. w/overlap 504.22 91.80 36.0%


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   8.9759e-02   8.7656e-05   46.73   0.12   0.09   0.34 
  4096   4.4856e-02   8.7610e-05   93.51   0.12   0.09   0.42 
  8192   2.4647e-02   9.6277e-05   170.18   0.09   0.07   0.27 
  16384   1.7970e-02   1.4039e-04   233.41   0.06   0.07   0.15 
  32768   1.5959e-02   2.4936e-04   262.82   0.03   0.02   0.14 
  65536   1.4620e-02   4.5687e-04   286.89   0.02   0.02   0.12 
  131072   1.4035e-02   8.7719e-04   298.85   0.04   0.02   0.17 
  262144   1.3988e-02   1.7485e-03   299.85   0.04   0.03   0.16 
  524288   1.3627e-02   3.4067e-03   307.80   0.11   0.10   0.40 
  1048576   1.3572e-02   6.7858e-03   309.05   0.15   0.14   0.50 
  2097152   1.3357e-02   1.3357e-02   314.02   0.06   0.02   0.47 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   2   6   3   9   0 
  4096   3   6   2   1   0 
  8192   2   3   6   1   8 
  16384   2   3   6   9   1 
  32768   9   2   1   6   7 
  65536   1   4   2   7   6 
  131072   4   9   6   5   1 
  262144   5   6   3   8   4 
  524288   4   5   2   9   3 
  1048576   8   5   4   9   1 
  2097152   4   6   8   2   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   3   8 
  4096    2   5   8 
  8192    2   4   8 
  16384    2   5   10 
  32768    2   9   10 
  65536    3   9   10 
  131072    2   7   10 
  262144    1   9   10 
  524288    2   2   9 
  1048576    1   3   9 
  2097152    3   9   9 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   9.2388e-02   9.0223e-05   45.40   0.10   0.07   0.31 
  4096   4.5956e-02   8.9758e-05   91.27   0.11   0.08   0.35 
  8192   2.3341e-02   9.1174e-05   179.70   0.11   0.09   0.39 
  16384   1.4484e-02   1.1316e-04   289.57   0.09   0.06   0.21 
  32768   1.2245e-02   1.9133e-04   342.53   0.06   0.05   0.21 
  65536   1.0588e-02   3.3086e-04   396.15   0.07   0.06   0.29 
  131072   9.9514e-03   6.2196e-04   421.48   0.10   0.06   0.57 
  262144   9.7044e-03   1.2131e-03   432.21   0.16   0.09   0.90 
  524288   9.3982e-03   2.3496e-03   446.29   0.48   0.16   3.53 
  1048576   9.2914e-03   4.6457e-03   451.42   0.63   0.21   2.80 
  2097152   8.7506e-03   8.7506e-03   479.32   0.36   0.04   2.41 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   3   2   6   1   9 
  4096   3   2   6   0   1 
  8192   2   6   1   3   0 
  16384   6   8   3   2   9 
  32768   6   2   8   9   4 
  65536   9   4   8   5   3 
  131072   4   9   5   7   8 
  262144   5   2   7   4   3 
  524288   5   4   8   6   7 
  1048576   4   5   3   9   2 
  2097152   4   8   2   5   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    2   3   8 
  4096    3   4   8 
  8192    4   4   8 
  16384    1   5   10 
  32768    2   5   10 
  65536    1   5   9 
  131072    3   5   9 
  262144    2   4   9 
  524288    1   2   8 
  1048576    1   3   7 
  2097152    1   7   8 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   9.4097e-02   9.1892e-05   44.57   0.08   0.05   0.28 
  4096   4.5536e-02   8.8938e-05   92.11   0.11   0.09   0.36 
  8192   2.3171e-02   9.0513e-05   181.01   0.11   0.08   0.39 
  16384   1.4089e-02   1.1007e-04   297.71   0.08   0.04   0.22 
  32768   1.2064e-02   1.8850e-04   347.66   0.04   0.03   0.23 
  65536   1.0191e-02   3.1848e-04   411.56   0.07   0.05   0.28 
  131072   9.7818e-03   6.1136e-04   428.79   0.07   0.05   0.27 
  262144   9.5351e-03   1.1919e-03   439.88   0.05   0.05   0.23 
  524288   9.2468e-03   2.3117e-03   453.60   0.13   0.14   0.26 
  1048576   9.1388e-03   4.5694e-03   458.96   0.26   0.29   0.61 
  2097152   8.8737e-03   8.8737e-03   472.67   0.42   0.45   1.14 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   3   6   2   0   9 
  4096   3   6   2   0   9 
  8192   2   6   3   1   0 
  16384   8   6   3   9   2 
  32768   8   2   6   4   9 
  65536   9   8   5   4   6 
  131072   5   4   2   3   9 
  262144   5   4   2   9   7 
  524288   4   5   6   8   2 
  1048576   4   5   6   2   7 
  2097152   5   4   8   3   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    3   6   8 
  4096    3   4   8 
  8192    1   5   8 
  16384    3   6   10 
  32768    3   9   10 
  65536    1   6   9 
  131072    1   4   9 
  262144    2   7   10 
  524288    2   2   9 
  1048576    2   2   4 
  2097152    2   2   2 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   8.8128e-02   8.6062e-05   47.59   0.10   0.05   0.56 
  4096   4.4726e-02   8.7356e-05   93.78   0.06   0.04   0.23 
  8192   2.4593e-02   9.6065e-05   170.55   0.05   0.06   0.10 
  16384   1.8033e-02   1.4089e-04   232.59   0.06   0.07   0.11 
  32768   1.6008e-02   2.5012e-04   262.02   0.10   0.08   0.25 
  65536   1.4158e-02   4.4244e-04   296.25   0.07   0.07   0.16 
  131072   1.4355e-02   8.9720e-04   292.18   0.03   0.02   0.13 
  262144   1.3834e-02   1.7293e-03   303.18   0.04   0.02   0.23 
  524288   1.3381e-02   3.3453e-03   313.45   0.09   0.03   0.38 
  1048576   1.3355e-02   6.6777e-03   314.05   0.09   0.03   0.59 
  2097152   1.3133e-02   1.3133e-02   319.37   0.08   0.02   0.50 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   2   3   4   5   6 
  4096   2   5   4   3   6 
  8192   1   2   3   6   5 
  16384   6   7   2   1   3 
  32768   7   6   1   2   9 
  65536   4   9   1   6   7 
  131072   9   8   4   5   6 
  262144   9   2   6   5   4 
  524288   2   8   4   9   5 
  1048576   9   8   4   5   2 
  2097152   5   9   3   4   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    4   5   9 
  4096    4   6   10 
  8192    3   5   10 
  16384    1   2   10 
  32768    3   3   9 
  65536    1   3   10 
  131072    4   9   10 
  262144    2   9   10 
  524288    2   6   9 
  1048576    4   7   9 
  2097152    1   8   9 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   8.4060e-02   8.2089e-05   49.90   0.14   0.09   0.68 
  4096   4.4202e-02   8.6332e-05   94.89   0.08   0.05   0.36 
  8192   2.2845e-02   8.9238e-05   183.60   0.05   0.05   0.15 
  16384   1.4134e-02   1.1042e-04   296.75   0.08   0.05   0.20 
  32768   1.1598e-02   1.8122e-04   361.64   0.09   0.05   0.28 
  65536   1.0042e-02   3.1381e-04   417.68   0.10   0.04   0.37 
  131072   9.6356e-03   6.0222e-04   435.29   0.13   0.10   0.68 
  262144   9.1718e-03   1.1465e-03   457.30   0.18   0.05   1.03 
  524288   8.8850e-03   2.2213e-03   472.07   0.54   0.05   4.30 
  1048576   8.7958e-03   4.3979e-03   476.85   0.52   0.04   2.68 
  2097152   8.4088e-03   8.4088e-03   498.80   0.44   0.05   3.25 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   2   4   3   5   9 
  4096   5   4   3   2   6 
  8192   4   2   3   5   6 
  16384   4   5   2   8   9 
  32768   5   2   8   9   4 
  65536   2   9   8   5   6 
  131072   4   2   9   5   8 
  262144   2   8   3   4   9 
  524288   4   9   3   2   8 
  1048576   4   5   8   2   3 
  2097152   5   6   8   7   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    3   4   9 
  4096    4   5   9 
  8192    2   5   10 
  16384    1   6   10 
  32768    1   5   9 
  65536    2   6   9 
  131072    4   4   9 
  262144    1   6   8 
  524288    1   5   6 
  1048576    2   6   8 
  2097152    2   7   8 


Protocol Sensitivity Summary for Bidirectional Swap of 2097152 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   8.7202e-02   8.5158e-05   48.10   0.13   0.11   0.62 
  4096   4.5465e-02   8.8798e-05   92.25   0.10   0.06   0.41 
  8192   2.3049e-02   9.0036e-05   181.97   0.09   0.07   0.18 
  16384   1.4058e-02   1.0983e-04   298.35   0.03   0.02   0.13 
  32768   1.1268e-02   1.7606e-04   372.24   0.08   0.07   0.24 
  65536   9.9289e-03   3.1028e-04   422.43   0.06   0.03   0.31 
  131072   9.2972e-03   5.8108e-04   451.14   0.09   0.06   0.31 
  262144   9.1670e-03   1.1459e-03   457.54   0.06   0.02   0.21 
  524288   8.6139e-03   2.1535e-03   486.93   0.12   0.07   0.34 
  1048576   8.3284e-03   4.1642e-03   503.61   0.20   0.03   0.73 
  2097152   8.2494e-03   8.2494e-03   508.44   0.30   0.02   1.25 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   2   4   5   3   6 
  4096   6   0   4   2   5 
  8192   6   1   0   3   5 
  16384   4   6   2   3   7 
  32768   4   8   2   3   5 
  65536   4   2   5   9   8 
  131072   9   5   3   2   8 
  262144   2   9   8   3   4 
  524288   8   2   4   5   3 
  1048576   8   2   4   5   9 
  2097152   4   3   8   9   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    2   4   9 
  4096    1   4   9 
  8192    1   3   10 
  16384    3   8   10 
  32768    1   3   10 
  65536    3   7   9 
  131072    3   3   9 
  262144    3   6   10 
  524288    3   3   8 
  1048576    2   6   6 
  2097152    5   6   6 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:03:39 EDT.
85939 accesses since 1/2/96.