COMMTEST SP3-200 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-200 SWAP Performance

(ordered swap of 8KB message using MPI and US between nodes)

(performance measured per processor when all processors in node communicating)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at National Energy Research Scientific Computing Center (Gseaborg)
   256 2-way Winterhawk I SMP nodes (200 MHz POWER3 with 4MB L2 cache, equivalent to RS/6000 Model 260
Environment: AIX 4.3.2; POE 2.4.0.12
Communication Library: MPI over the switch using user space
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: 0 and 2
1 and 3
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 27.85 45.50 30.9%
1 iter. 29.73 42.19 30.6%
10 iter. 31.44 44.33 34.0%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 25.05 46.74 28.6%
1 iter. 27.89 46.52 31.7%
10 iter. 30.16 45.68 33.6%
cache inv. w/overlap 24.73 49.81 30.1%
1 iter. w/overlap 27.48 55.31 36.6%
10 iter. w/overlap 29.94 48.95 35.8%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 24.59 43.52 24.7%
1 iter. 29.80 41.54 37.7%
10 iter. 29.30 45.04 32.2%
cache inv. w/overlap 25.81 48.64 30.7%
1 iter. w/overlap 30.52 48.80 36.4%
10 iter. w/overlap 29.45 49.49 35.6%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 23.98 47.95 30.2%
1 iter. 27.99 46.10 31.5%
10 iter. 28.93 47.04 33.2%
cache inv. w/overlap 23.99 49.95 27.7%
1 iter. w/overlap 26.94 50.57 32.0%
10 iter. w/overlap 30.45 50.55 37.6%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 29.08 55.26 19.6%
1 iter. 30.42 52.83 21.6%
10 iter. 38.65 53.33 25.2%
cache inv. w/overlap 34.77 49.01 20.8%
1 iter. w/overlap 39.60 48.97 23.7%
10 iter. w/overlap 37.84 51.61 23.8%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 28.53 55.62 19.4%
1 iter. 32.64 55.32 22.0%
10 iter. 36.85 54.80 24.7%
cache inv. w/overlap 31.23 47.00 17.9%
1 iter. w/overlap 37.16 50.23 22.8%
10 iter. w/overlap 41.18 49.16 24.7%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 23.89 48.22 28.1%
1 iter. 27.14 45.80 30.3%
10 iter. 30.36 45.94 34.1%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 24.00 117.06 34.3%
1 iter. 27.84 120.00 40.8%
10 iter. 28.23 120.29 41.5%
cache inv. w/overlap 22.69 116.47 32.3%
1 iter. w/overlap 26.39 121.92 39.3%
10 iter. w/overlap 28.00 121.41 41.5%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 25.32 120.71 37.3%
1 iter. 26.33 121.55 39.1%
10 iter. 28.32 120.19 41.5%
cache inv. w/overlap 24.53 120.10 36.0%
1 iter. w/overlap 27.39 123.25 41.2%
10 iter. w/overlap 27.64 117.83 39.8%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 23.86 122.91 35.8%
1 iter. 27.46 120.62 40.4%
10 iter. 27.74 123.87 42.0%
cache inv. w/overlap 24.02 126.28 37.0%
1 iter. w/overlap 26.66 126.67 41.2%
10 iter. w/overlap 27.99 124.58 42.6%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 25.12 119.19 36.5%
1 iter. 26.77 118.46 38.7%
10 iter. 28.60 118.05 41.2%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.2029e-02   8.9872e-05   0.18   0.67   0.22   1.73 
  16   4.5954e-02   8.9754e-05   0.36   0.67   0.20   1.72 
  32   2.0641e-02   8.0628e-05   0.79   0.86   0.36   2.07 
  64   1.0775e-02   8.4180e-05   1.52   0.81   0.32   1.99 
  128   5.4981e-03   8.5908e-05   2.98   0.85   0.35   2.08 
  256   3.0676e-03   9.5861e-05   5.34   0.75   0.33   1.79 
  512   1.7028e-03   1.0642e-04   9.62   0.71   0.33   1.77 
  1024   1.2316e-03   1.5395e-04   13.30   0.44   0.24   1.07 
  2048   8.4468e-04   2.1117e-04   19.40   0.33   0.21   0.89 
  4096   5.8819e-04   2.9410e-04   27.85   0.34   0.33   0.70 
  8192   5.6340e-04   5.6340e-04   29.08   0.16   0.18   0.27 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   2   0   6   1   3 
  16   6   0   2   1   3 
  32   0   1   6   2   3 
  64   1   0   2   3   6 
  128   0   1   2   6   3 
  256   0   1   6   3   2 
  512   3   0   2   1   6 
  1024   0   1   3   2   6 
  2048   0   1   2   3   6 
  4096   0   1   2   3   6 
  8192   4   5   0   8   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   4   7 
  16    1   4   6 
  32    1   2   5 
  64    1   2   4 
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   7 
  2048    2   4   6 
  4096    1   1   5 
  8192    1   2   10 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   8.9080e-02   8.6992e-05   0.18   0.70   0.22   1.80 
  16   4.5456e-02   8.8781e-05   0.36   0.68   0.21   1.76 
  32   1.5844e-02   6.1889e-05   1.03   1.39   0.77   2.96 
  64   1.0190e-02   7.9610e-05   1.61   0.89   0.38   2.14 
  128   4.8357e-03   7.5559e-05   3.39   1.06   0.51   2.49 
  256   3.1378e-03   9.8055e-05   5.22   0.67   0.26   1.67 
  512   1.5439e-03   9.6496e-05   10.61   0.81   0.45   1.84 
  1024   1.1536e-03   1.4420e-04   14.20   0.46   0.21   1.17 
  2048   7.5383e-04   1.8846e-04   21.73   0.38   0.23   0.91 
  4096   5.4979e-04   2.7489e-04   29.80   0.27   0.12   0.66 
  8192   5.0202e-04   5.0202e-04   32.64   0.17   0.19   0.24 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   6   1   3 
  16   6   0   2   1   3 
  32   2   0   6   1   3 
  64   0   2   1   6   3 
  128   2   1   0   6   3 
  256   2   0   1   6   3 
  512   0   1   2   3   6 
  1024   0   2   1   3   6 
  2048   0   1   2   3   6 
  4096   2   0   3   1   6 
  8192   5   4   0   7   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    2   3   6 
  16    2   4   7 
  32    1   1   1 
  64    2   2   5 
  128    1   1   1 
  256    1   3   5 
  512    1   1   5 
  1024    1   2   7 
  2048    1   2   7 
  4096    2   2   7 
  8192    1   1   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.0558e-02   8.8435e-05   0.18   0.69   0.20   1.79 
  16   4.5163e-02   8.8210e-05   0.36   0.69   0.20   1.78 
  32   2.2766e-02   8.8930e-05   0.72   0.69   0.21   1.77 
  64   1.1353e-02   8.8693e-05   1.44   0.71   0.22   1.77 
  128   6.1038e-03   9.5371e-05   2.68   0.66   0.20   1.70 
  256   3.2357e-03   1.0111e-04   5.06   0.60   0.18   1.57 
  512   1.6201e-03   1.0126e-04   10.11   0.69   0.31   1.64 
  1024   1.1138e-03   1.3923e-04   14.71   0.49   0.21   1.22 
  2048   7.3211e-04   1.8303e-04   22.38   0.39   0.15   0.93 
  4096   5.2106e-04   2.6053e-04   31.44   0.28   0.14   0.70 
  8192   4.2387e-04   4.2387e-04   38.65   0.30   0.36   0.39 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   6   2   1   3 
  16   0   6   2   1   3 
  32   0   6   2   1   3 
  64   0   1   6   3   2 
  128   0   2   3   1   6 
  256   0   1   6   2   3 
  512   0   1   3   2   6 
  1024   0   1   3   2   6 
  2048   0   1   2   3   6 
  4096   0   6   1   2   3 
  8192   4   5   0   10   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   4   7 
  16    1   2   7 
  32    1   2   6 
  64    1   1   6 
  128    1   2   6 
  256    2   4   7 
  512    1   1   5 
  1024    1   2   7 
  2048    1   1   7 
  4096    1   3   7 
  8192    1   2   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.2695e-02   9.0522e-05   0.18   0.64   0.10   1.76 
  16   4.4704e-02   8.7313e-05   0.37   0.70   0.14   1.84 
  32   2.2436e-02   8.7641e-05   0.73   0.72   0.17   1.95 
  64   1.1202e-02   8.7516e-05   1.46   0.73   0.14   1.95 
  128   6.1283e-03   9.5755e-05   2.67   0.66   0.14   1.71 
  256   3.1587e-03   9.8710e-05   5.19   0.71   0.18   1.79 
  512   1.8644e-03   1.1652e-04   8.79   0.55   0.11   1.42 
  1024   1.2373e-03   1.5467e-04   13.24   0.43   0.11   1.10 
  2048   8.5064e-04   2.1266e-04   19.26   0.31   0.07   0.86 
  4096   6.3383e-04   3.1692e-04   25.85   0.22   0.07   0.56 
  8192   4.7128e-04   4.7128e-04   34.77   0.38   0.45   0.53 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   6   0   2   1   4 
  16   0   6   1   2   4 
  32   0   6   2   1   4 
  64   0   1   6   2   4 
  128   0   2   1   6   4 
  256   0   6   4   1   3 
  512   0   2   1   6   4 
  1024   0   1   4   2   6 
  2048   0   2   1   3   4 
  4096   0   2   4   1   6 
  8192   4   5   2   8   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   2   7 
  16    1   2   7 
  32    1   1   7 
  64    1   1   7 
  128    1   2   7 
  256    1   1   7 
  512    1   2   7 
  1024    1   1   7 
  2048    1   3   7 
  4096    2   5   7 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   9.2196e-02   9.0035e-05   0.18   0.67   0.11   1.80 
  16   4.5675e-02   8.9210e-05   0.36   0.67   0.10   1.81 
  32   2.1846e-02   8.5335e-05   0.75   0.76   0.18   1.97 
  64   1.2315e-02   9.6213e-05   1.33   0.59   0.06   1.60 
  128   6.1759e-03   9.6498e-05   2.65   0.65   0.14   1.75 
  256   3.2072e-03   1.0023e-04   5.11   0.63   0.13   1.64 
  512   1.6529e-03   1.0330e-04   9.91   0.67   0.20   1.67 
  1024   1.1570e-03   1.4463e-04   14.16   0.45   0.14   1.18 
  2048   7.4340e-04   1.8585e-04   22.04   0.38   0.14   0.97 
  4096   5.3681e-04   2.6840e-04   30.52   0.27   0.14   0.61 
  8192   4.1372e-04   4.1372e-04   39.60   0.39   0.45   0.58 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   6   2   4   5 
  16   0   1   2   6   5 
  32   4   0   6   2   1 
  64   2   4   3   1   6 
  128   0   4   2   6   1 
  256   0   6   1   5   4 
  512   0   6   2   1   4 
  1024   0   2   4   1   3 
  2048   0   2   1   3   5 
  4096   2   0   5   4   1 
  8192   4   5   2   0   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   2   7 
  16    2   4   7 
  32    2   2   7 
  64    1   3   7 
  128    1   4   7 
  256    1   3   7 
  512    1   1   6 
  1024    1   2   7 
  2048    1   2   7 
  4096    1   2   7 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   8.9927e-02   8.7819e-05   0.18   0.70   0.13   1.82 
  16   4.5430e-02   8.8731e-05   0.36   0.69   0.10   1.83 
  32   2.2215e-02   8.6777e-05   0.74   0.72   0.15   1.82 
  64   1.2035e-02   9.4020e-05   1.36   0.60   0.05   1.61 
  128   6.2545e-03   9.7727e-05   2.62   0.61   0.08   1.61 
  256   3.1023e-03   9.6946e-05   5.28   0.65   0.12   1.66 
  512   1.5651e-03   9.7820e-05   10.47   0.73   0.20   1.77 
  1024   1.1343e-03   1.4178e-04   14.44   0.44   0.08   1.17 
  2048   7.2735e-04   1.8184e-04   22.53   0.35   0.08   0.92 
  4096   5.1554e-04   2.5777e-04   31.78   0.27   0.08   0.65 
  8192   3.9788e-04   3.9788e-04   41.18   0.38   0.45   0.49 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   6   1   5   2 
  16   0   6   4   5   3 
  32   0   6   2   1   3 
  64   0   6   1   5   3 
  128   0   1   4   2   6 
  256   0   6   4   2   5 
  512   0   4   3   6   1 
  1024   0   4   1   2   6 
  2048   0   2   1   4   3 
  4096   0   3   1   2   4 
  8192   5   4   10   0   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   7 
  16    1   1   7 
  32    1   1   7 
  64    2   5   7 
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   4   7 
  2048    1   2   7 
  4096    1   2   7 
  8192    1   1   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:14:44 EDT.
86160 accesses since 1/2/96.