PSTSWM AlphaSC-667 Point-to-Point Communication Performance

Performance Studies using

PSTSWM


Compaq AlphaServer SC SWAP Performance

(ordered swap of 8KB message using MPI between two nodes)

(performance measured per processor when all processors in node communicating)

> Latency Definition:
Date/Person: July 17, 2000 / P. Worley
Platform: Compaq AlphaServer SC at Oak Ridge National Laboratory (falcon.ccs.ornl.gov):
     64 ES40 4-way SMP nodes (667 MHz Alpha 21264a with 8MB L2 cache)
Environment: SC System v1.0; Digital UNIX V5.0;   RMS 2.37
Communication Library: MPI
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 4 nodes
1 and 5
2 and 6
3 and 7
(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 33.64 12.34 25.6%
1 iter. 35.48 12.26 21.1%
10 iter. 36.86 12.19 21.2%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 32.62 11.80 20.7%
1 iter. 35.84 12.29 21.1%
10 iter. 36.82 12.14 22.2%
cache inv. w/overlap 32.60 12.56 21.6%
1 iter. w/overlap 35.31 12.29 22.6%
10 iter. w/overlap 36.61 12.66 21.9%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 33.53 12.78 22.6%
1 iter. 35.82 12.37 22.9%
10 iter. 36.77 12.54 22.0%
cache inv. w/overlap 34.06 12.52 21.9%
1 iter. w/overlap 36.26 12.22 25.1%
10 iter. w/overlap 37.01 15.56 17.4%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 33.27 12.71 22.4%
1 iter. 35.85 12.69 22.0%
10 iter. 36.74 12.63 22.0%
cache inv. w/overlap 34.02 12.68 22.7%
1 iter. w/overlap 35.69 12.69 22.8%
10 iter. w/overlap 37.07 15.32 21.5%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 31.41 28.05 15.5%
1 iter. 34.87 28.37 14.4%
10 iter. 35.70 28.08 14.8%
cache inv. w/overlap 33.42 12.40 22.7%
1 iter. w/overlap 35.87 12.87 21.6%
10 iter. w/overlap 37.24 15.33 18.8%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 31.11 28.95 14.4%
1 iter. 33.91 28.94 17.4%
10 iter. 35.65 28.72 15.2%
cache inv. w/overlap 33.13 12.78 21.7%
1 iter. w/overlap 36.34 12.58 24.1%
10 iter. w/overlap 36.97 15.09 22.0%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 32.51 27.08 13.6%
1 iter. 34.54 27.15 15.7%
10 iter. 36.19 26.33 13.2%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 32.81 19.48 15.2%
1 iter. 35.91 19.52 13.4%
10 iter. 36.80 19.27 14.2%
cache inv. w/overlap 32.14 19.13 12.4%
1 iter. w/overlap 36.04 19.78 11.5%
10 iter. w/overlap 36.64 20.33 14.8%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 33.21 19.35 13.6%
1 iter. 35.60 19.03 13.7%
10 iter. 36.91 19.17 11.3%
cache inv. w/overlap 33.66 18.96 12.3%
1 iter. w/overlap 35.73 19.31 12.4%
10 iter. w/overlap 37.19 20.03 10.3%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 32.61 19.41 11.5%
1 iter. 35.80 19.47 12.5%
10 iter. 36.67 19.06 12.2%
cache inv. w/overlap 33.03 19.04 11.6%
1 iter. w/overlap 35.98 19.52 9.2%
10 iter. w/overlap 36.93 20.59 11.2%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 33.56 19.51 10.5%
1 iter. 36.23 20.15 15.0%
10 iter. 36.93 19.52 14.7%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.5081e-02   2.4493e-05   0.65   0.57   0.60   1.36 
  16   1.2533e-02   2.4478e-05   1.31   0.58   0.60   1.35 
  32   6.2976e-03   2.4600e-05   2.60   0.58   0.59   1.35 
  64   3.7414e-03   2.9230e-05   4.38   0.49   0.49   1.17 
  128   2.0730e-03   3.2391e-05   7.90   0.46   0.46   1.05 
  256   1.2468e-03   3.8962e-05   13.14   0.39   0.40   0.92 
  512   1.1098e-03   6.9362e-05   14.76   0.10   0.05   0.33 
  1024   7.1340e-04   8.9175e-05   22.97   0.08   0.04   0.28 
  2048   5.5680e-04   1.3920e-04   29.43   0.07   0.03   0.19 
  4096   5.0180e-04   2.5090e-04   32.65   0.05   0.04   0.13 
  8192   4.8700e-04   4.8700e-04   33.64   0.03   0.03   0.08 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   1   0   2   3   8 
  16   0   2   1   3   8 
  32   0   1   3   2   8 
  64   1   0   2   3   10 
  128   1   0   3   2   7 
  256   0   1   2   3   10 
  512   1   7   10   3   2 
  1024   1   0   10   3   2 
  2048   1   0   7   8   2 
  4096   0   10   1   2   7 
  8192   0   10   2   3   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   4   4 
  16    1   3   4 
  32    2   2   4 
  64    1   3   4 
  128    1   2   4 
  256    1   1   4 
  512    2   6   9 
  1024    2   7   9 
  2048    1   7   11 
  4096    1   8   11 
  8192    3   9   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.5110e-02   2.4521e-05   0.65   0.57   0.58   1.35 
  16   1.2552e-02   2.4515e-05   1.31   0.56   0.57   1.33 
  32   6.2220e-03   2.4305e-05   2.63   0.57   0.59   1.37 
  64   3.6404e-03   2.8441e-05   4.50   0.50   0.50   1.17 
  128   2.0148e-03   3.1481e-05   8.13   0.46   0.46   1.08 
  256   1.2272e-03   3.8350e-05   13.35   0.37   0.36   0.88 
  512   1.0676e-03   6.6725e-05   15.35   0.09   0.04   0.31 
  1024   6.7360e-04   8.4200e-05   24.32   0.08   0.04   0.25 
  2048   5.3140e-04   1.3285e-04   30.83   0.05   0.01   0.15 
  4096   4.7820e-04   2.3910e-04   34.26   0.03   0.02   0.09 
  8192   4.5220e-04   4.5220e-04   36.23   0.02   0.01   0.07 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   2   3   8 
  16   0   1   2   3   9 
  32   0   1   3   2   8 
  64   1   0   3   2   9 
  128   1   0   2   3   9 
  256   0   1   2   3   8 
  512   10   7   1   0   8 
  1024   10   1   0   7   2 
  2048   3   1   2   10   8 
  4096   8   7   1   10   0 
  8192   10   7   3   1   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   4   4 
  16    2   4   4 
  32    2   4   4 
  64    2   2   4 
  128    2   3   4 
  256    2   3   4 
  512    3   8   9 
  1024    2   8   9 
  2048    3   8   11 
  4096    2   8   11 
  8192    2   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.4838e-02   2.4256e-05   0.66   0.57   0.58   1.37 
  16   1.2404e-02   2.4227e-05   1.32   0.58   0.59   1.38 
  32   6.1854e-03   2.4162e-05   2.65   0.58   0.58   1.38 
  64   3.6222e-03   2.8298e-05   4.52   0.51   0.50   1.21 
  128   2.0074e-03   3.1365e-05   8.16   0.47   0.46   1.08 
  256   1.1940e-03   3.7314e-05   13.72   0.41   0.41   0.90 
  512   1.0582e-03   6.6138e-05   15.48   0.09   0.03   0.30 
  1024   6.6730e-04   8.3413e-05   24.55   0.07   0.04   0.24 
  2048   5.2318e-04   1.3080e-04   31.32   0.05   0.02   0.14 
  4096   4.6978e-04   2.3489e-04   34.88   0.02   0.01   0.06 
  8192   4.4364e-04   4.4364e-04   36.93   0.01   0.00   0.04 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   1   0   2   3   8 
  16   1   0   2   3   8 
  32   1   0   2   3   8 
  64   1   0   2   3   9 
  128   1   0   3   2   9 
  256   0   1   2   3   9 
  512   7   0   10   1   2 
  1024   7   10   1   0   2 
  2048   10   1   7   0   9 
  4096   7   0   2   3   1 
  8192   10   8   0   1   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   4   4 
  16    2   4   4 
  32    2   4   4 
  64    2   4   4 
  128    1   2   4 
  256    1   2   4 
  512    3   8   9 
  1024    4   8   11 
  2048    4   8   11 
  4096    8   8   11 
  8192    8   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.5782e-02   2.5178e-05   0.64   0.30   0.02   1.15 
  16   1.2909e-02   2.5212e-05   1.27   0.30   0.03   1.16 
  32   6.3958e-03   2.4984e-05   2.56   0.31   0.05   1.17 
  64   3.7296e-03   2.9138e-05   4.39   0.28   0.06   1.08 
  128   2.0794e-03   3.2491e-05   7.88   0.28   0.10   1.04 
  256   1.2746e-03   3.9831e-05   12.85   0.23   0.08   0.80 
  512   1.1290e-03   7.0563e-05   14.51   0.05   0.02   0.29 
  1024   7.2240e-04   9.0300e-05   22.68   0.04   0.02   0.21 
  2048   5.6540e-04   1.4135e-04   28.98   0.03   0.02   0.17 
  4096   4.9880e-04   2.4940e-04   32.85   0.04   0.03   0.09 
  8192   4.8100e-04   4.8100e-04   34.06   0.03   0.03   0.06 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   2   4   0   1   3 
  16   0   2   1   4   5 
  32   0   1   4   2   3 
  64   0   1   4   2   3 
  128   0   1   4   2   5 
  256   0   1   4   2   3 
  512   2   4   3   0   5 
  1024   0   2   4   7   1 
  2048   4   3   8   2   0 
  4096   4   2   3   5   8 
  8192   2   3   0   8   4 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    4   6   6 
  16    2   6   6 
  32    3   5   6 
  64    1   5   6 
  128    1   3   6 
  256    1   2   6 
  512    1   10   10 
  1024    3   9   11 
  2048    5   10   11 
  4096    2   8   11 
  8192    3   9   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.5220e-02   2.4629e-05   0.65   0.34   0.03   1.24 
  16   1.2632e-02   2.4673e-05   1.30   0.33   0.03   1.21 
  32   6.2742e-03   2.4509e-05   2.61   0.34   0.04   1.21 
  64   3.6810e-03   2.8758e-05   4.45   0.29   0.03   1.10 
  128   2.0336e-03   3.1775e-05   8.06   0.28   0.05   1.06 
  256   1.2242e-03   3.8256e-05   13.38   0.24   0.06   0.81 
  512   1.0968e-03   6.8550e-05   14.94   0.03   0.01   0.22 
  1024   6.9480e-04   8.6850e-05   23.58   0.03   0.02   0.18 
  2048   5.4240e-04   1.3560e-04   30.21   0.02   0.01   0.13 
  4096   4.7720e-04   2.3860e-04   34.33   0.03   0.02   0.09 
  8192   4.5080e-04   4.5080e-04   36.34   0.02   0.01   0.05 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   1   0   2   4   5 
  16   1   4   0   2   5 
  32   2   0   1   4   3 
  64   0   1   4   2   5 
  128   0   1   4   3   5 
  256   0   1   4   2   3 
  512   0   10   7   1   4 
  1024   0   7   5   1   10 
  2048   2   3   4   8   10 
  4096   10   4   5   7   0 
  8192   5   2   7   9   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    3   6   6 
  16    3   6   6 
  32    3   6   6 
  64    2   6   6 
  128    2   6   6 
  256    1   3   6 
  512    3   10   11 
  1024    4   10   11 
  2048    5   10   11 
  4096    1   10   11 
  8192    3   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.5776e-02   2.5172e-05   0.64   0.40   0.23   1.15 
  16   1.2901e-02   2.5197e-05   1.27   0.40   0.24   1.15 
  32   6.4044e-03   2.5017e-05   2.56   0.41   0.23   1.15 
  64   3.7317e-03   2.9154e-05   4.39   0.36   0.20   1.09 
  128   2.0642e-03   3.2253e-05   7.94   0.34   0.20   1.00 
  256   1.2245e-03   3.8267e-05   13.38   0.29   0.18   0.83 
  512   1.0755e-03   6.7220e-05   15.23   0.07   0.06   0.23 
  1024   6.7906e-04   8.4882e-05   24.13   0.05   0.06   0.18 
  2048   5.3124e-04   1.3281e-04   30.84   0.03   0.03   0.08 
  4096   4.7064e-04   2.3532e-04   34.81   0.01   0.01   0.04 
  8192   4.4000e-04   4.4000e-04   37.24   0.01   0.01   0.03 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   1   4   2   5 
  16   0   1   4   2   5 
  32   0   1   4   2   5 
  64   0   1   3   4   5 
  128   0   1   2   4   3 
  256   0   1   2   4   5 
  512   10   0   1   7   2 
  1024   1   7   0   10   2 
  2048   7   1   10   0   8 
  4096   4   8   2   0   10 
  8192   4   8   3   2   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   2   6 
  16    2   2   6 
  32    2   2   6 
  64    2   2   6 
  128    2   2   6 
  256    2   2   6 
  512    2   4   11 
  1024    4   4   11 
  2048    3   10   11 
  4096    9   11   11 
  8192    6   11   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:05:32 EDT.
85958 accesses since 1/2/96.