PSTSWM AlphaSC-1000 Point-to-Point Communication Performance

Performance Studies using

PSTSWM


Compaq AlphaServer SC SWAP Performance

(ordered swap of 128KB message using MPI within a node)

(performance measured per processor when all processors in node communicating)

>
Date/Person: January 3, 2002 / P. Worley
Platform: Compaq AlphaServer SC at Pittsburgh Supercomputer Center (lemieux.psc.edu):
     750 ES45 4-way SMP nodes (1.0 GHz Alpha 21264C with 8MB L2 cache)
Environment: SC System TS2.5; Digital UNIX V5.1;   RMS X.XX
Communication Library: MPI
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 1
2 and 3
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 336.34 9.85 58.2%
1 iter. 547.27 9.73 60.8%
10 iter. 549.64 9.81 60.5%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 333.86 9.73 58.7%
1 iter. 540.73 9.68 61.1%
10 iter. 545.45 9.92 60.2%
cache inv. w/overlap 325.97 9.65 60.2%
1 iter. w/overlap 540.06 9.68 61.3%
10 iter. w/overlap 540.50 11.54 57.0%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 332.92 10.02 57.3%
1 iter. 545.91 10.11 59.2%
10 iter. 524.35 10.23 58.7%
cache inv. w/overlap 334.62 10.48 56.8%
1 iter. w/overlap 551.42 10.26 59.0%
10 iter. w/overlap 521.78 12.16 54.9%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 330.49 10.33 56.2%
1 iter. 543.19 10.31 58.6%
10 iter. 544.00 10.29 58.6%
cache inv. w/overlap 335.22 10.48 57.8%
1 iter. w/overlap 545.45 10.23 59.1%
10 iter. w/overlap 540.70 12.33 55.7%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 330.49 25.23 36.3%
1 iter. 532.16 25.21 37.5%
10 iter. 535.60 25.11 38.0%
cache inv. w/overlap 338.08 10.17 58.4%
1 iter. w/overlap 545.00 10.44 58.0%
10 iter. w/overlap 545.27 12.48 54.8%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 324.68 25.20 34.8%
1 iter. 528.09 25.35 37.2%
10 iter. 517.09 24.96 38.5%
cache inv. w/overlap 329.49 10.85 56.2%
1 iter. w/overlap 542.52 10.56 58.2%
10 iter. w/overlap 505.89 12.50 55.1%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 337.55 22.87 41.2%
1 iter. 530.44 22.89 42.0%
10 iter. 539.90 22.51 42.8%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 333.52 18.02 38.5%
1 iter. 539.61 18.97 37.0%
10 iter. 541.11 18.92 37.1%
cache inv. w/overlap 329.16 19.11 35.8%
1 iter. w/overlap 536.52 18.86 37.2%
10 iter. w/overlap 538.46 20.89 33.8%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 333.01 18.14 38.3%
1 iter. 537.40 18.29 39.2%
10 iter. 522.87 18.37 38.9%
cache inv. w/overlap 336.00 19.01 36.9%
1 iter. w/overlap 547.27 18.21 38.8%
10 iter. w/overlap 543.84 20.47 35.5%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 333.01 18.46 37.4%
1 iter. 543.87 18.29 39.4%
10 iter. 540.75 18.45 38.8%
cache inv. w/overlap 334.37 18.93 36.6%
1 iter. w/overlap 544.77 18.31 39.0%
10 iter. w/overlap 544.34 20.89 34.9%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 333.77 18.72 36.0%
1 iter. 545.45 18.72 37.7%
10 iter. 543.12 18.41 38.6%


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.7190e-02   2.6553e-05   9.64   0.54   0.63   1.19 
  256   1.7103e-02   3.3405e-05   15.33   0.43   0.49   0.98 
  512   1.3855e-02   5.4121e-05   18.92   0.21   0.18   0.55 
  1024   6.9104e-03   5.3987e-05   37.93   0.20   0.18   0.50 
  2048   3.4880e-03   5.4500e-05   75.16   0.17   0.17   0.41 
  4096   1.8300e-03   5.7188e-05   143.25   0.16   0.14   0.37 
  8192   1.1780e-03   7.3625e-05   222.53   0.12   0.07   0.31 
  16384   1.0240e-03   1.2800e-04   256.00   0.05   0.05   0.10 
  32768   9.4440e-04   2.3610e-04   277.58   0.03   0.03   0.07 
  65536   8.7700e-04   4.3850e-04   298.91   0.02   0.02   0.05 
  131072   7.5420e-04   7.5420e-04   347.58   0.03   0.03   0.06 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   8 
  256   0   1   3   2   8 
  512   2   3   0   1   10 
  1024   0   2   3   1   10 
  2048   0   2   1   3   10 
  4096   0   1   3   2   10 
  8192   0   10   1   7   2 
  16384   0   10   2   3   6 
  32768   0   10   6   2   1 
  65536   0   6   10   1   3 
  131072   0   8   2   6   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   4   4 
  256    1   4   4 
  512    4   4   8 
  1024    3   4   8 
  2048    3   4   8 
  4096    1   2   8 
  8192    1   2   9 
  16384    1   6   11 
  32768    2   9   11 
  65536    3   11   11 
  131072    1   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.7154e-02   2.6518e-05   9.65   0.54   0.63   1.19 
  256   1.7186e-02   3.3566e-05   15.25   0.41   0.49   0.95 
  512   1.3868e-02   5.4170e-05   18.90   0.21   0.17   0.55 
  1024   6.9054e-03   5.3948e-05   37.96   0.21   0.18   0.54 
  2048   3.4476e-03   5.3869e-05   76.04   0.19   0.19   0.49 
  4096   1.7554e-03   5.4856e-05   149.34   0.16   0.16   0.38 
  8192   9.4060e-04   5.8787e-05   278.70   0.15   0.12   0.34 
  16384   6.9640e-04   8.7050e-05   376.43   0.09   0.07   0.21 
  32768   6.3180e-04   1.5795e-04   414.92   0.04   0.04   0.09 
  65536   5.4620e-04   2.7310e-04   479.94   0.03   0.02   0.06 
  131072   4.7820e-04   4.7820e-04   548.19   0.05   0.05   0.16 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   8 
  256   0   1   2   3   8 
  512   2   3   0   1   10 
  1024   2   1   3   0   10 
  2048   2   0   3   1   10 
  4096   0   1   2   3   10 
  8192   0   1   2   3   10 
  16384   0   10   2   3   1 
  32768   0   2   10   1   3 
  65536   0   10   2   1   8 
  131072   0   3   9   1   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   4   4 
  256    2   4   4 
  512    4   4   8 
  1024    3   4   8 
  2048    3   4   8 
  4096    3   4   8 
  8192    1   2   8 
  16384    1   3   11 
  32768    1   8   11 
  65536    1   9   11 
  131072    1   7   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.7312e-02   2.6672e-05   9.60   0.53   0.63   1.17 
  256   1.7267e-02   3.3725e-05   15.18   0.41   0.48   0.95 
  512   1.3893e-02   5.4271e-05   18.87   0.21   0.16   0.55 
  1024   6.9453e-03   5.4260e-05   37.74   0.21   0.17   0.53 
  2048   3.4670e-03   5.4172e-05   75.61   0.19   0.18   0.49 
  4096   1.7516e-03   5.4737e-05   149.66   0.17   0.17   0.39 
  8192   9.2238e-04   5.7649e-05   284.20   0.17   0.13   0.37 
  16384   6.7126e-04   8.3908e-05   390.53   0.09   0.07   0.26 
  32768   6.3212e-04   1.5803e-04   414.71   0.03   0.02   0.10 
  65536   5.4380e-04   2.7190e-04   482.06   0.04   0.02   0.15 
  131072   4.7734e-04   4.7734e-04   549.18   0.02   0.02   0.04 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   8 
  256   0   1   2   3   8 
  512   2   3   0   1   10 
  1024   2   0   3   1   10 
  2048   3   2   0   1   10 
  4096   0   1   2   3   10 
  8192   0   2   1   3   10 
  16384   0   10   1   8   2 
  32768   0   10   3   1   7 
  65536   0   10   3   7   1 
  131072   0   2   10   1   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   4   4 
  256    2   4   4 
  512    4   4   8 
  1024    4   4   8 
  2048    4   4   8 
  4096    2   4   8 
  8192    1   1   8 
  16384    1   2   10 
  32768    4   8   11 
  65536    2   9   11 
  131072    3   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.7035e-02   2.6402e-05   9.70   0.36   0.07   0.99 
  256   1.7378e-02   3.3941e-05   15.08   0.26   0.03   0.73 
  512   1.4248e-02   5.5655e-05   18.40   0.11   0.02   0.53 
  1024   7.0758e-03   5.5280e-05   37.05   0.12   0.03   0.50 
  2048   3.5720e-03   5.5813e-05   73.39   0.10   0.03   0.40 
  4096   1.8536e-03   5.7925e-05   141.42   0.12   0.10   0.36 
  8192   1.1864e-03   7.4150e-05   220.96   0.09   0.10   0.21 
  16384   1.0190e-03   1.2737e-04   257.26   0.06   0.06   0.11 
  32768   9.4900e-04   2.3725e-04   276.23   0.03   0.03   0.06 
  65536   8.8080e-04   4.4040e-04   297.62   0.02   0.01   0.05 
  131072   7.4780e-04   7.4780e-04   350.55   0.01   0.01   0.05 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   4   2   3 
  256   0   1   2   3   4 
  512   2   0   4   1   5 
  1024   2   4   1   3   5 
  2048   0   2   4   1   3 
  4096   0   1   2   4   5 
  8192   0   10   4   2   8 
  16384   0   10   4   2   8 
  32768   0   4   2   8   10 
  65536   4   2   0   9   8 
  131072   3   2   8   4   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   4   6 
  256    2   6   6 
  512    3   6   10 
  1024    1   6   10 
  2048    4   6   10 
  4096    1   2   10 
  8192    1   2   11 
  16384    1   4   11 
  32768    2   9   11 
  65536    5   11   11 
  131072    5   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.7140e-02   2.6504e-05   9.66   0.34   0.05   0.99 
  256   1.7229e-02   3.3650e-05   15.22   0.26   0.04   0.74 
  512   1.3832e-02   5.4033e-05   18.95   0.11   0.02   0.53 
  1024   6.9062e-03   5.3955e-05   37.96   0.12   0.02   0.54 
  2048   3.4364e-03   5.3694e-05   76.28   0.12   0.02   0.52 
  4096   1.7412e-03   5.4413e-05   150.55   0.11   0.04   0.39 
  8192   9.1640e-04   5.7275e-05   286.06   0.12   0.12   0.34 
  16384   6.9980e-04   8.7475e-05   374.60   0.07   0.10   0.12 
  32768   6.3260e-04   1.5815e-04   414.39   0.03   0.05   0.05 
  65536   5.4060e-04   2.7030e-04   484.91   0.03   0.03   0.05 
  131072   4.7960e-04   4.7960e-04   546.59   0.04   0.01   0.22 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   4 
  256   0   1   2   4   5 
  512   0   4   2   3   1 
  1024   4   0   2   1   3 
  2048   0   4   2   1   3 
  4096   0   4   1   2   3 
  8192   0   4   2   1   10 
  16384   0   10   4   2   8 
  32768   0   10   4   2   8 
  65536   0   4   10   8   2 
  131072   0   3   8   2   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   5   6 
  256    1   6   6 
  512    2   6   10 
  1024    2   6   10 
  2048    2   6   10 
  4096    2   6   10 
  8192    1   2   10 
  16384    2   5   11 
  32768    2   9   11 
  65536    2   11   11 
  131072    6   9   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.0211e-02   2.9503e-05   8.68   0.31   0.07   0.81 
  256   1.8608e-02   3.6344e-05   14.09   0.24   0.05   0.65 
  512   1.4722e-02   5.7506e-05   17.81   0.11   0.05   0.52 
  1024   7.3573e-03   5.7479e-05   35.63   0.12   0.06   0.52 
  2048   3.6579e-03   5.7155e-05   71.66   0.12   0.06   0.49 
  4096   1.8442e-03   5.7632e-05   142.14   0.12   0.08   0.40 
  8192   9.4678e-04   5.9174e-05   276.88   0.13   0.11   0.37 
  16384   6.6872e-04   8.3590e-05   392.01   0.10   0.11   0.18 
  32768   6.2046e-04   1.5511e-04   422.50   0.04   0.04   0.16 
  65536   5.3884e-04   2.6942e-04   486.50   0.03   0.03   0.08 
  131072   4.7776e-04   4.7776e-04   548.69   0.01   0.01   0.03 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   4 
  256   0   1   2   4   3 
  512   0   1   2   4   3 
  1024   0   1   2   4   3 
  2048   0   1   2   4   5 
  4096   0   1   2   4   3 
  8192   0   2   1   4   10 
  16384   0   10   4   8   2 
  32768   10   4   0   8   9 
  65536   0   10   4   6   9 
  131072   2   0   8   3   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   2   6 
  256    2   6   6 
  512    1   6   10 
  1024    1   5   10 
  2048    1   4   10 
  4096    1   4   10 
  8192    1   1   10 
  16384    1   2   11 
  32768    3   8   11 
  65536    3   9   11 
  131072    7   11   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:01:28 EDT.
86253 accesses since 1/2/96.