COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(ordered swap of 128KB message using MPI between two nodes)

(performance measured per processor when all processors in node communicating)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 4
1 and 5
2 and 6
3 and 7
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 35.81 36.56 38.4%
1 iter. 38.65 38.74 33.6%
10 iter. 38.44 38.31 33.9%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 35.67 57.20 27.6%
1 iter. 38.15 59.96 26.8%
10 iter. 38.64 59.94 27.4%
cache inv. w/overlap 35.87 62.58 27.1%
1 iter. w/overlap 38.11 62.44 26.2%
10 iter. w/overlap 38.56 45.92 31.2%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 35.39 58.31 27.1%
1 iter. 38.55 59.39 27.9%
10 iter. 38.53 60.13 27.2%
cache inv. w/overlap 35.82 59.39 26.9%
1 iter. w/overlap 38.80 58.08 27.8%
10 iter. w/overlap 38.59 47.09 30.9%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 34.79 65.76 24.2%
1 iter. 38.22 67.57 25.1%
10 iter. 38.35 66.56 25.3%
cache inv. w/overlap 35.42 74.71 24.2%
1 iter. w/overlap 37.99 74.89 23.0%
10 iter. w/overlap 38.49 61.74 26.7%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 36.14 82.47 8.7%
1 iter. 39.67 82.17 15.1%
10 iter. 39.61 80.54 14.3%
cache inv. w/overlap 36.38 65.90 7.5%
1 iter. w/overlap 39.61 66.37 11.3%
10 iter. w/overlap 39.90 50.44 23.8%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 35.37 82.17 8.5%
1 iter. 39.17 83.05 17.1%
10 iter. 39.40 82.92 14.0%
cache inv. w/overlap 35.81 72.96 7.0%
1 iter. w/overlap 39.55 75.45 12.7%
10 iter. w/overlap 39.49 61.19 13.2%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 35.93 70.58 25.6%
1 iter. 37.71 67.84 25.1%
10 iter. 38.50 68.39 25.5%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 35.73 137.93 22.6%
1 iter. 38.35 140.10 20.6%
10 iter. 38.52 141.03 19.8%
cache inv. w/overlap 34.92 131.24 26.1%
1 iter. w/overlap 38.17 138.95 22.4%
10 iter. w/overlap 38.65 131.55 23.4%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 34.56 138.72 22.4%
1 iter. 38.50 140.47 21.1%
10 iter. 38.68 140.70 19.7%
cache inv. w/overlap 35.36 133.20 25.3%
1 iter. w/overlap 38.07 140.38 22.2%
10 iter. w/overlap 38.71 135.23 21.8%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 35.43 151.87 18.3%
1 iter. 38.46 147.93 18.5%
10 iter. 38.63 146.02 17.8%
cache inv. w/overlap 35.47 153.38 17.2%
1 iter. w/overlap 38.20 150.55 18.1%
10 iter. w/overlap 38.66 131.54 24.9%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 35.91 128.93 26.6%
1 iter. 38.19 131.00 23.7%
10 iter. 38.69 130.82 23.1%


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.1010e-01   1.0752e-04   2.38   0.83   0.57   1.89 
  256   7.2663e-02   1.4192e-04   3.61   0.48   0.22   1.24 
  512   4.1054e-02   1.6037e-04   6.39   0.45   0.11   1.19 
  1024   2.4946e-02   1.9489e-04   10.51   0.46   0.06   1.27 
  2048   1.5348e-02   2.3981e-04   17.08   0.39   0.07   1.04 
  4096   1.1220e-02   3.5063e-04   23.36   0.26   0.04   0.68 
  8192   9.1872e-03   5.7420e-04   28.53   0.31   0.38   0.40 
  16384   8.4383e-03   1.0548e-03   31.07   0.15   0.18   0.20 
  32768   7.9044e-03   1.9761e-03   33.16   0.08   0.10   0.12 
  65536   7.4119e-03   3.7060e-03   35.37   0.05   0.06   0.08 
  131072   7.2537e-03   7.2537e-03   36.14   0.02   0.01   0.05 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   6 
  256   0   1   2   3   6 
  512   0   2   1   3   6 
  1024   0   1   2   3   6 
  2048   2   1   0   3   6 
  4096   0   1   2   3   6 
  8192   4   5   10   9   8 
  16384   4   5   1   2   6 
  32768   4   5   2   3   9 
  65536   5   4   0   1   3 
  131072   4   6   10   0   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   3 
  256    1   3   7 
  512    1   4   7 
  1024    3   4   7 
  2048    4   4   7 
  4096    3   7   7 
  8192    2   2   2 
  16384    1   2   11 
  32768    2   2   11 
  65536    1   5   11 
  131072    4   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.7109e-02   9.4833e-05   2.70   1.03   0.77   2.20 
  256   5.7439e-02   1.1219e-04   4.56   0.79   0.54   1.78 
  512   3.8969e-02   1.5222e-04   6.73   0.43   0.18   1.13 
  1024   2.5152e-02   1.9650e-04   10.42   0.44   0.09   1.18 
  2048   1.5148e-02   2.3669e-04   17.31   0.40   0.07   1.06 
  4096   1.0696e-02   3.3424e-04   24.51   0.28   0.05   0.75 
  8192   7.9814e-03   4.9884e-04   32.84   0.42   0.51   0.53 
  16384   6.8849e-03   8.6061e-04   38.08   0.25   0.30   0.32 
  32768   7.3603e-03   1.8401e-03   35.62   0.08   0.10   0.12 
  65536   6.9545e-03   3.4772e-03   37.69   0.05   0.06   0.07 
  131072   6.6074e-03   6.6074e-03   39.67   0.03   0.03   0.05 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   3   6 
  256   0   2   1   3   6 
  512   0   1   2   3   6 
  1024   0   3   2   1   6 
  2048   2   1   0   3   4 
  4096   1   3   0   2   6 
  8192   5   4   8   0   10 
  16384   4   5   10   2   0 
  32768   5   4   8   2   7 
  65536   5   4   1   0   8 
  131072   4   5   0   2   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   1 
  256    1   1   3 
  512    1   3   7 
  1024    1   4   7 
  2048    3   4   7 
  4096    3   6   7 
  8192    1   2   2 
  16384    1   1   2 
  32768    2   2   11 
  65536    2   2   11 
  131072    1   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.5716e-02   9.3472e-05   2.74   1.05   0.79   2.22 
  256   5.6486e-02   1.1033e-04   4.64   0.81   0.56   1.81 
  512   3.8903e-02   1.5196e-04   6.74   0.42   0.17   1.12 
  1024   2.5156e-02   1.9653e-04   10.42   0.43   0.09   1.14 
  2048   1.5145e-02   2.3664e-04   17.31   0.39   0.07   1.04 
  4096   1.0633e-02   3.3229e-04   24.65   0.28   0.04   0.74 
  8192   8.1107e-03   5.0692e-04   32.32   0.39   0.48   0.49 
  16384   6.9202e-03   8.6503e-04   37.88   0.25   0.30   0.30 
  32768   7.2016e-03   1.8004e-03   36.40   0.10   0.12   0.12 
  65536   6.8913e-03   3.4457e-03   38.04   0.05   0.06   0.07 
  131072   6.6187e-03   6.6187e-03   39.61   0.02   0.03   0.03 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   3   6 
  256   0   2   1   3   6 
  512   0   2   1   3   6 
  1024   0   1   3   2   6 
  2048   0   2   1   3   6 
  4096   0   2   1   3   6 
  8192   4   5   8   10   0 
  16384   4   5   7   10   1 
  32768   5   4   10   0   3 
  65536   5   4   1   0   8 
  131072   4   5   10   8   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   1 
  256    1   1   3 
  512    1   4   7 
  1024    2   4   7 
  2048    4   5   7 
  4096    4   7   7 
  8192    2   2   2 
  16384    1   2   2 
  32768    2   2   11 
  65536    2   2   11 
  131072    2   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.1022e-01   1.0764e-04   2.38   0.84   0.42   2.01 
  256   7.4320e-02   1.4516e-04   3.53   0.50   0.10   1.35 
  512   4.1359e-02   1.6156e-04   6.34   0.46   0.03   1.27 
  1024   2.4871e-02   1.9430e-04   10.54   0.46   0.02   1.27 
  2048   1.5107e-02   2.3605e-04   17.35   0.41   0.05   1.06 
  4096   1.0791e-02   3.3721e-04   24.29   0.27   0.06   0.75 
  8192   8.8683e-03   5.5427e-04   29.56   0.36   0.42   0.48 
  16384   8.0369e-03   1.0046e-03   32.62   0.20   0.24   0.27 
  32768   7.7671e-03   1.9418e-03   33.75   0.09   0.11   0.13 
  65536   7.4826e-03   3.7413e-03   35.03   0.05   0.05   0.07 
  131072   7.2060e-03   7.2060e-03   36.38   0.02   0.02   0.04 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   6 
  256   0   2   1   4   3 
  512   0   2   4   1   5 
  1024   0   2   3   5   1 
  2048   2   4   0   3   1 
  4096   2   4   3   0   5 
  8192   4   5   0   10   9 
  16384   4   5   0   2   3 
  32768   5   4   10   0   7 
  65536   4   5   9   3   2 
  131072   4   0   10   1   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   1 
  256    1   1   7 
  512    1   6   7 
  1024    5   6   7 
  2048    2   6   7 
  4096    1   4   7 
  8192    1   2   2 
  16384    1   2   10 
  32768    2   2   11 
  65536    1   5   11 
  131072    2   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.8714e-02   9.6400e-05   2.66   1.02   0.59   2.29 
  256   5.9270e-02   1.1576e-04   4.42   0.79   0.35   1.89 
  512   3.9489e-02   1.5425e-04   6.64   0.46   0.07   1.29 
  1024   2.5369e-02   1.9819e-04   10.33   0.43   0.03   1.18 
  2048   1.5154e-02   2.3678e-04   17.30   0.39   0.02   1.06 
  4096   1.0566e-02   3.3019e-04   24.81   0.29   0.03   0.76 
  8192   8.3768e-03   5.2355e-04   31.29   0.36   0.42   0.46 
  16384   6.9017e-03   8.6271e-04   37.98   0.25   0.30   0.34 
  32768   7.1665e-03   1.7916e-03   36.58   0.11   0.13   0.15 
  65536   6.8883e-03   3.4441e-03   38.06   0.06   0.07   0.08 
  131072   6.6181e-03   6.6181e-03   39.61   0.03   0.04   0.05 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   6 
  256   0   2   1   5   4 
  512   0   2   1   4   3 
  1024   0   1   5   2   4 
  2048   4   0   1   2   5 
  4096   4   0   5   1   2 
  8192   4   5   7   10   2 
  16384   4   5   8   0   9 
  32768   5   4   7   2   1 
  65536   4   5   2   0   8 
  131072   4   5   2   9   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   1 
  256    1   1   1 
  512    1   4   7 
  1024    1   6   7 
  2048    5   7   7 
  4096    2   6   7 
  8192    1   2   2 
  16384    2   2   2 
  32768    2   2   11 
  65536    2   3   11 
  131072    2   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.0208e-01   9.9688e-05   2.57   0.80   0.37   1.86 
  256   5.8658e-02   1.1457e-04   4.47   0.69   0.31   1.67 
  512   3.9047e-02   1.5253e-04   6.71   0.40   0.04   1.16 
  1024   2.5162e-02   1.9658e-04   10.42   0.41   0.02   1.14 
  2048   1.5162e-02   2.3691e-04   17.29   0.38   0.01   1.04 
  4096   1.0648e-02   3.3275e-04   24.62   0.27   0.01   0.74 
  8192   7.8518e-03   4.9074e-04   33.39   0.44   0.53   0.55 
  16384   6.8414e-03   8.5518e-04   38.32   0.26   0.32   0.33 
  32768   7.0819e-03   1.7705e-03   37.02   0.11   0.14   0.14 
  65536   6.8818e-03   3.4409e-03   38.09   0.05   0.06   0.07 
  131072   6.5706e-03   6.5706e-03   39.90   0.03   0.03   0.04 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   5 
  256   0   2   1   4   3 
  512   0   2   1   4   5 
  1024   0   2   1   4   5 
  2048   0   4   2   1   5 
  4096   0   5   1   2   4 
  8192   5   4   10   0   7 
  16384   4   5   0   2   1 
  32768   4   5   2   10   0 
  65536   5   4   10   7   8 
  131072   4   5   8   9   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   4 
  256    1   1   3 
  512    1   6   7 
  1024    2   6   7 
  2048    3   7   7 
  4096    5   7   7 
  8192    1   2   2 
  16384    1   2   2 
  32768    2   2   11 
  65536    2   2   11 
  131072    1   11   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:55 EDT.
86409 accesses since 1/2/96.