PSTSWM AlphaSC-1000 Point-to-Point Communication Performance

Performance Studies using

PSTSWM


Compaq AlphaServer SC SWAP Performance

(ordered swap of 2MB message using MPI within a node)

(performance measured per processor when all processors in node communicating)

r>
Date/Person: January 3, 2002 / P. Worley
Platform: Compaq AlphaServer SC at Pittsburgh Supercomputer Center (lemieux.psc.edu):
     750 ES45 4-way SMP nodes (1.0 GHz Alpha 21264C with 8MB L2 cache)
Environment: SC System TS2.5; Digital UNIX V5.1;   RMS X.XX
Communication Library: MPI
SWAP size: 262144 REAL*8 floating point values each direction
Message size: Largest - 262144 REAL*8 floating point values
Smallest - 256 REAL*8 floating point values
Processors: 0 and 1
2 and 3
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 424.62 26.75 35.6%
1 iter. 555.60 26.66 34.4%
10 iter. 587.79 26.73 39.1%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 449.48 26.65 27.8%
1 iter. 522.32 26.86 36.8%
10 iter. 586.10 26.76 35.6%
cache inv. w/overlap 445.97 27.35 27.3%
1 iter. w/overlap 525.97 27.16 33.6%
10 iter. w/overlap 583.73 28.69 35.5%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 437.66 25.80 22.3%
1 iter. 548.42 26.23 31.2%
10 iter. 589.51 26.67 31.4%
cache inv. w/overlap 443.84 26.58 22.8%
1 iter. w/overlap 552.89 26.80 33.3%
10 iter. w/overlap 585.19 29.29 36.6%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 427.74 25.37 25.0%
1 iter. 552.07 26.70 26.7%
10 iter. 587.69 26.56 29.7%
cache inv. w/overlap 442.53 27.61 24.3%
1 iter. w/overlap 554.67 26.33 17.3%
10 iter. w/overlap 584.55 29.80 29.8%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 449.13 37.87 26.7%
1 iter. 509.67 40.39 39.5%
10 iter. 582.69 41.28 39.5%
cache inv. w/overlap 442.51 27.05 29.2%
1 iter. w/overlap 517.11 26.41 33.6%
10 iter. w/overlap 586.15 29.30 36.3%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 439.16 36.79 21.4%
1 iter. 551.50 38.05 27.8%
10 iter. 583.05 39.33 33.2%
cache inv. w/overlap 439.30 26.61 19.5%
1 iter. w/overlap 553.73 26.28 22.7%
10 iter. w/overlap 586.51 29.83 29.3%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 426.67 39.45 40.7%
1 iter. 552.45 42.29 47.7%
10 iter. 586.27 42.92 45.3%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 450.68 31.92 40.9%
1 iter. 517.97 32.00 45.9%
10 iter. 584.13 32.04 41.2%
cache inv. w/overlap 442.72 32.26 38.9%
1 iter. w/overlap 514.35 31.58 43.7%
10 iter. w/overlap 582.71 33.37 37.2%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 449.32 31.65 31.0%
1 iter. 555.60 31.84 38.7%
10 iter. 585.86 31.87 39.1%
cache inv. w/overlap 446.87 32.37 37.4%
1 iter. w/overlap 555.68 31.82 38.7%
10 iter. w/overlap 587.73 33.97 37.0%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 426.36 31.80 38.9%
1 iter. 556.01 32.04 36.6%
10 iter. 585.79 31.95 38.7%
cache inv. w/overlap 427.03 32.41 37.0%
1 iter. w/overlap 550.09 32.07 32.5%
10 iter. w/overlap 584.19 33.47 30.3%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 449.38 31.80 42.9%
1 iter. 526.41 31.93 45.9%
10 iter. 586.72 31.81 41.9%


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   5.5762e-02   5.4455e-05   75.22   0.17   0.17   0.42 
  4096   2.8368e-02   5.5407e-05   147.85   0.17   0.16   0.37 
  8192   1.7389e-02   6.7927e-05   241.20   0.12   0.08   0.35 
  16384   1.4403e-02   1.1252e-04   291.21   0.06   0.05   0.15 
  32768   1.3340e-02   2.0843e-04   314.42   0.03   0.03   0.07 
  65536   1.1908e-02   3.7211e-04   352.24   0.02   0.02   0.03 
  131072   1.0806e-02   6.7537e-04   388.15   0.01   0.01   0.03 
  262144   1.0074e-02   1.2592e-03   416.36   0.01   0.01   0.01 
  524288   9.7844e-03   2.4461e-03   428.67   0.02   0.01   0.06 
  1048576   9.5258e-03   4.7629e-03   440.31   0.02   0.01   0.04 
  2097152   9.3992e-03   9.3992e-03   446.24   0.04   0.03   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   3   10 
  4096   0   1   2   3   10 
  8192   0   10   1   7   3 
  16384   0   10   6   3   9 
  32768   0   2   10   7   3 
  65536   0   6   2   3   10 
  131072   0   10   7   2   6 
  262144   1   10   2   8   7 
  524288   7   4   1   10   8 
  1048576   10   1   2   7   4 
  2097152   2   6   7   8   4 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    4   4   8 
  4096    1   3   8 
  8192    1   5   9 
  16384    2   6   11 
  32768    1   9   11 
  65536    3   11   11 
  131072    5   11   11 
  262144    8   11   11 
  524288    7   7   11 
  1048576    4   11   11 
  2097152    2   8   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   5.5449e-02   5.4149e-05   75.64   0.19   0.18   0.48 
  4096   2.8153e-02   5.4987e-05   148.98   0.17   0.16   0.39 
  8192   1.5773e-02   6.1614e-05   265.91   0.12   0.06   0.34 
  16384   1.2370e-02   9.6642e-05   339.07   0.08   0.05   0.15 
  32768   1.1312e-02   1.7675e-04   370.79   0.05   0.05   0.10 
  65536   9.7834e-03   3.0573e-04   428.72   0.03   0.03   0.05 
  131072   8.7162e-03   5.4476e-04   481.21   0.01   0.01   0.02 
  262144   8.1238e-03   1.0155e-03   516.30   0.02   0.01   0.05 
  524288   7.8334e-03   1.9584e-03   535.44   0.01   0.01   0.05 
  1048576   7.6374e-03   3.8187e-03   549.18   0.04   0.01   0.09 
  2097152   7.5768e-03   7.5768e-03   553.57   0.02   0.01   0.11 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   3   10 
  4096   0   1   2   3   10 
  8192   0   1   2   10   7 
  16384   10   1   2   7   8 
  32768   2   1   10   8   7 
  65536   0   2   8   3   10 
  131072   0   10   2   7   1 
  262144   0   3   2   9   6 
  524288   2   8   3   0   9 
  1048576   0   3   9   5   8 
  2097152   4   3   10   9   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    3   4   8 
  4096    1   4   8 
  8192    2   3   8 
  16384    1   5   11 
  32768    2   6   11 
  65536    1   11   11 
  131072    3   11   11 
  262144    5   10   11 
  524288    6   10   11 
  1048576    6   7   11 
  2097152    6   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   5.5326e-02   5.4029e-05   75.81   0.19   0.18   0.50 
  4096   2.7956e-02   5.4602e-05   150.03   0.17   0.17   0.39 
  8192   1.4968e-02   5.8468e-05   280.22   0.15   0.12   0.37 
  16384   1.1206e-02   8.7549e-05   374.28   0.07   0.05   0.19 
  32768   1.0099e-02   1.5780e-04   415.31   0.04   0.04   0.10 
  65536   8.9197e-03   2.7874e-04   470.23   0.02   0.02   0.04 
  131072   7.8561e-03   4.9100e-04   533.89   0.01   0.01   0.03 
  262144   7.3604e-03   9.2005e-04   569.85   0.01   0.01   0.02 
  524288   7.1487e-03   1.7872e-03   586.72   0.01   0.01   0.02 
  1048576   7.1149e-03   3.5575e-03   589.51   0.01   0.01   0.02 
  2097152   7.3470e-03   7.3470e-03   570.89   0.01   0.02   0.03 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   3   10 
  4096   0   1   2   3   10 
  8192   0   1   2   3   10 
  16384   0   10   2   1   8 
  32768   0   3   10   9   6 
  65536   2   0   10   8   3 
  131072   0   10   1   3   6 
  262144   8   2   0   3   9 
  524288   10   1   7   4   0 
  1048576   2   0   3   6   8 
  2097152   4   3   5   2   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    4   4   8 
  4096    1   4   8 
  8192    1   2   8 
  16384    1   6   11 
  32768    1   8   11 
  65536    3   11   11 
  131072    6   11   11 
  262144    5   11   11 
  524288    4   11   11 
  1048576    6   11   11 
  2097152    4   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   5.7038e-02   5.5701e-05   73.54   0.11   0.03   0.44 
  4096   2.9070e-02   5.6778e-05   144.28   0.11   0.06   0.37 
  8192   1.7122e-02   6.6884e-05   244.96   0.10   0.10   0.23 
  16384   1.4089e-02   1.1007e-04   297.69   0.08   0.09   0.17 
  32768   1.3251e-02   2.0705e-04   316.52   0.04   0.03   0.08 
  65536   1.1759e-02   3.6748e-04   356.68   0.03   0.03   0.06 
  131072   1.0552e-02   6.5951e-04   397.48   0.02   0.02   0.04 
  262144   1.0003e-02   1.2504e-03   419.29   0.01   0.01   0.02 
  524288   9.7452e-03   2.4363e-03   430.40   0.03   0.01   0.08 
  1048576   9.5210e-03   4.7605e-03   440.53   0.03   0.01   0.08 
  2097152   9.4700e-03   9.4700e-03   442.90   0.03   0.01   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   4   5 
  4096   0   1   2   4   3 
  8192   0   10   4   1   7 
  16384   0   10   4   6   1 
  32768   10   0   4   6   8 
  65536   0   10   4   1   8 
  131072   10   4   2   1   5 
  262144   4   10   5   8   2 
  524288   10   1   8   2   5 
  1048576   4   7   2   5   8 
  2097152   8   6   4   3   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    3   6   10 
  4096    1   5   10 
  8192    1   2   11 
  16384    1   3   11 
  32768    2   8   11 
  65536    3   10   11 
  131072    2   11   11 
  262144    5   11   11 
  524288    6   7   11 
  1048576    6   7   11 
  2097152    3   8   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   5.5161e-02   5.3868e-05   76.04   0.12   0.02   0.50 
  4096   2.8005e-02   5.4696e-05   149.77   0.11   0.05   0.40 
  8192   1.5694e-02   6.1305e-05   267.26   0.09   0.08   0.26 
  16384   1.2348e-02   9.6470e-05   339.67   0.07   0.08   0.17 
  32768   1.1082e-02   1.7315e-04   378.49   0.07   0.05   0.15 
  65536   9.7916e-03   3.0599e-04   428.36   0.02   0.02   0.03 
  131072   8.6300e-03   5.3938e-04   486.01   0.03   0.03   0.04 
  262144   8.1746e-03   1.0218e-03   513.09   0.02   0.01   0.05 
  524288   7.8582e-03   1.9645e-03   533.75   0.02   0.01   0.09 
  1048576   7.6866e-03   3.8433e-03   545.66   0.02   0.01   0.07 
  2097152   7.5800e-03   7.5800e-03   553.34   0.02   0.00   0.11 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   4   2   1   3 
  4096   0   1   4   2   3 
  8192   0   2   4   1   10 
  16384   10   2   4   8   0 
  32768   10   4   8   2   1 
  65536   0   2   10   8   4 
  131072   0   8   4   2   9 
  262144   0   8   2   3   9 
  524288   0   8   6   2   9 
  1048576   0   8   9   6   2 
  2097152   4   0   1   5   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    2   6   10 
  4096    1   4   10 
  8192    1   4   10 
  16384    1   5   11 
  32768    1   6   11 
  65536    4   11   11 
  131072    1   11   11 
  262144    6   11   11 
  524288    7   8   11 
  1048576    7   8   11 
  2097152    8   9   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   5.8919e-02   5.7538e-05   71.19   0.12   0.06   0.46 
  4096   2.9532e-02   5.7681e-05   142.02   0.12   0.09   0.37 
  8192   1.5371e-02   6.0045e-05   272.86   0.12   0.12   0.33 
  16384   1.1131e-02   8.6963e-05   376.81   0.07   0.09   0.14 
  32768   9.9701e-03   1.5578e-04   420.69   0.05   0.05   0.09 
  65536   8.8709e-03   2.7721e-04   472.82   0.02   0.02   0.05 
  131072   7.8311e-03   4.8945e-04   535.59   0.02   0.02   0.03 
  262144   7.3509e-03   9.1886e-04   570.59   0.01   0.01   0.02 
  524288   7.1464e-03   1.7866e-03   586.91   0.01   0.02   0.03 
  1048576   7.1153e-03   3.5576e-03   589.48   0.01   0.01   0.02 
  2097152   7.3927e-03   7.3927e-03   567.36   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   1   2   4   3 
  4096   0   1   2   4   3 
  8192   0   1   2   4   10 
  16384   0   10   2   4   8 
  32768   0   10   4   2   6 
  65536   2   8   0   10   4 
  131072   0   10   4   1   7 
  262144   2   8   0   5   4 
  524288   10   4   1   7   8 
  1048576   0   8   5   6   2 
  2097152   5   4   2   3   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   4   10 
  4096    1   4   10 
  8192    1   1   10 
  16384    2   5   11 
  32768    1   5   11 
  65536    3   10   11 
  131072    3   11   11 
  262144    4   11   11 
  524288    4   11   11 
  1048576    7   11   11 
  2097152    4   11   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:01:25 EDT.
86968 accesses since 1/2/96.