COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(ordered swap of 2MB message using MPI within a node)

(performance measured per processor when all processors in node communicating)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 262144 REAL*8 floating point values each direction
Message size: Largest - 262144 REAL*8 floating point values
Smallest - 256 REAL*8 floating point values
Processors: 0 and 1
2 and 3
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 177.00 9.74 18.8%
1 iter. 315.52 9.92 36.6%
10 iter. 426.23 9.77 43.0%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 179.19 10.38 19.7%
1 iter. 315.73 10.79 37.1%
10 iter. 425.35 10.58 42.6%
cache inv. w/overlap 178.35 10.73 22.8%
1 iter. w/overlap 314.01 11.57 36.5%
10 iter. w/overlap 428.20 10.87 43.1%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 179.39 10.92 18.7%
1 iter. 312.04 10.91 36.8%
10 iter. 425.82 10.87 42.2%
cache inv. w/overlap 178.30 11.18 20.7%
1 iter. w/overlap 317.66 11.22 36.8%
10 iter. w/overlap 432.18 10.98 42.7%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 177.81 11.65 19.3%
1 iter. 304.36 11.96 33.7%
10 iter. 424.36 11.49 41.9%
cache inv. w/overlap 180.29 12.71 19.0%
1 iter. w/overlap 316.67 12.76 35.6%
10 iter. w/overlap 435.23 12.23 43.5%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 177.82 15.92 6.7%
1 iter. 315.77 14.48 21.9%
10 iter. 428.56 14.31 31.7%
cache inv. w/overlap 180.10 11.48 8.4%
1 iter. w/overlap 316.34 11.52 23.5%
10 iter. w/overlap 436.23 11.10 33.5%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 176.51 15.80 4.2%
1 iter. 313.73 15.36 21.1%
10 iter. 430.07 14.94 31.4%
cache inv. w/overlap 179.29 12.18 9.1%
1 iter. w/overlap 317.03 12.49 21.8%
10 iter. w/overlap 435.26 12.19 32.8%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 177.71 13.23 18.1%
1 iter. 310.25 12.96 34.4%
10 iter. 429.91 13.15 40.7%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 178.36 23.14 5.3%
1 iter. 311.51 23.55 21.2%
10 iter. 432.70 24.05 29.2%
cache inv. w/overlap 179.24 25.19 5.5%
1 iter. w/overlap 313.47 24.68 21.9%
10 iter. w/overlap 426.70 24.71 28.5%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 178.24 23.68 3.1%
1 iter. 312.61 23.95 21.0%
10 iter. 424.69 24.14 28.9%
cache inv. w/overlap 180.45 24.51 3.8%
1 iter. w/overlap 315.60 24.98 20.9%
10 iter. w/overlap 426.60 24.65 27.9%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 179.57 24.85 6.0%
1 iter. 311.62 25.32 20.3%
10 iter. 426.26 24.92 28.8%
cache inv. w/overlap 180.67 25.90 6.9%
1 iter. w/overlap 312.57 26.27 19.6%
10 iter. w/overlap 427.18 26.89 28.1%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 181.79 23.55 6.3%
1 iter. 314.66 23.77 20.8%
10 iter. 423.15 23.27 28.8%


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   4.3728e-02   4.2703e-05   95.92   0.31   0.23   0.70 
  4096   3.3751e-02   6.5920e-05   124.27   0.20   0.11   0.44 
  8192   3.1080e-02   1.2141e-04   134.95   0.13   0.15   0.19 
  16384   2.7855e-02   2.1761e-04   150.58   0.08   0.08   0.11 
  32768   2.6909e-02   4.2045e-04   155.87   0.03   0.02   0.05 
  65536   2.4701e-02   7.7189e-04   169.81   0.03   0.02   0.07 
  131072   2.3761e-02   1.4851e-03   176.52   0.01   0.01   0.04 
  262144   2.3587e-02   2.9484e-03   177.82   0.01   0.01   0.03 
  524288   2.3551e-02   5.8879e-03   178.09   0.01   0.01   0.03 
  1048576   2.3407e-02   1.1703e-02   179.19   0.02   0.02   0.04 
  2097152   2.3072e-02   2.3072e-02   181.79   0.03   0.02   0.06 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   1   2   3   6 
  4096   0   2   1   3   4 
  8192   4   5   0   2   1 
  16384   5   4   1   10   6 
  32768   5   4   2   8   3 
  65536   4   5   7   8   10 
  131072   6   4   9   10   3 
  262144   4   6   7   0   5 
  524288   9   3   6   0   5 
  1048576   1   8   6   3   5 
  2097152   10   9   2   1   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   3   6 
  4096    1   4   7 
  8192    2   2   11 
  16384    2   2   11 
  32768    1   10   11 
  65536    2   10   11 
  131072    6   11   11 
  262144    3   11   11 
  524288    6   11   11 
  1048576    4   11   11 
  2097152    1   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   3.7909e-02   3.7021e-05   110.64   0.36   0.24   0.82 
  4096   2.7750e-02   5.4199e-05   151.15   0.24   0.16   0.55 
  8192   2.4647e-02   9.6279e-05   170.17   0.17   0.21   0.25 
  16384   2.1213e-02   1.6573e-04   197.72   0.10   0.12   0.13 
  32768   1.9379e-02   3.0280e-04   216.44   0.06   0.07   0.11 
  65536   1.6613e-02   5.1915e-04   252.47   0.04   0.05   0.06 
  131072   1.5095e-02   9.4346e-04   277.85   0.02   0.02   0.04 
  262144   1.4076e-02   1.7595e-03   297.98   0.01   0.01   0.03 
  524288   1.3532e-02   3.3829e-03   309.96   0.02   0.01   0.07 
  1048576   1.3283e-02   6.6415e-03   315.77   0.01   0.01   0.05 
  2097152   1.3284e-02   1.3284e-02   315.73   0.02   0.02   0.06 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   3   6 
  4096   0   2   1   3   6 
  8192   4   5   0   10   8 
  16384   4   5   1   0   10 
  32768   4   5   2   6   0 
  65536   10   5   4   9   6 
  131072   5   4   1   8   6 
  262144   0   1   4   2   10 
  524288   9   2   4   0   10 
  1048576   4   0   5   1   10 
  2097152   1   10   9   5   4 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   3   6 
  4096    1   3   7 
  8192    1   2   11 
  16384    1   2   11 
  32768    2   2   11 
  65536    2   8   11 
  131072    2   11   11 
  262144    6   11   11 
  524288    4   10   11 
  1048576    5   11   11 
  2097152    2   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   3.4255e-02   3.3452e-05   122.44   0.40   0.28   0.91 
  4096   2.4246e-02   4.7355e-05   172.99   0.29   0.20   0.64 
  8192   2.1743e-02   8.4932e-05   192.91   0.19   0.23   0.28 
  16384   1.8376e-02   1.4356e-04   228.25   0.11   0.13   0.15 
  32768   1.7005e-02   2.6571e-04   246.65   0.05   0.06   0.08 
  65536   1.2992e-02   4.0601e-04   322.83   0.04   0.04   0.05 
  131072   1.1129e-02   6.9559e-04   376.87   0.03   0.03   0.04 
  262144   1.0267e-02   1.2834e-03   408.51   0.01   0.02   0.02 
  524288   9.7526e-03   2.4382e-03   430.07   0.01   0.01   0.02 
  1048576   9.6934e-03   4.8467e-03   432.70   0.02   0.02   0.03 
  2097152   1.1167e-02   1.1167e-02   375.59   0.03   0.03   0.06 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   1   2   3   6 
  4096   0   2   1   3   6 
  8192   4   5   0   10   1 
  16384   4   5   0   10   1 
  32768   4   5   0   7   1 
  65536   4   5   8   10   7 
  131072   5   4   6   10   0 
  262144   5   4   7   8   0 
  524288   5   4   6   9   1 
  1048576   7   6   0   2   9 
  2097152   9   8   10   1   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   5 
  4096    1   3   7 
  8192    1   2   9 
  16384    1   2   11 
  32768    2   2   11 
  65536    2   8   11 
  131072    2   11   11 
  262144    2   11   11 
  524288    4   11   11 
  1048576    2   11   11 
  2097152    4   10   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   4.3922e-02   4.2893e-05   95.49   0.30   0.12   0.73 
  4096   3.3779e-02   6.5974e-05   124.17   0.19   0.07   0.47 
  8192   3.0039e-02   1.1734e-04   139.63   0.18   0.22   0.25 
  16384   2.7624e-02   2.1581e-04   151.84   0.10   0.11   0.16 
  32768   2.7017e-02   4.2214e-04   155.25   0.03   0.04   0.08 
  65536   2.4738e-02   7.7306e-04   169.55   0.03   0.04   0.06 
  131072   2.3864e-02   1.4915e-03   175.76   0.01   0.01   0.02 
  262144   2.3524e-02   2.9405e-03   178.30   0.01   0.01   0.03 
  524288   2.3361e-02   5.8402e-03   179.54   0.01   0.01   0.02 
  1048576   2.3264e-02   1.1632e-02   180.29   0.01   0.01   0.02 
  2097152   2.3094e-02   2.3094e-02   181.62   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   4   5 
  4096   0   2   4   1   5 
  8192   4   5   0   10   7 
  16384   4   5   0   1   10 
  32768   4   8   6   5   10 
  65536   5   6   2   1   4 
  131072   4   2   10   3   8 
  262144   2   3   0   8   5 
  524288   0   6   10   1   2 
  1048576   3   9   4   0   6 
  2097152   10   0   9   8   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   3   7 
  8192    2   2   10 
  16384    2   2   11 
  32768    1   10   11 
  65536    1   10   11 
  131072    6   11   11 
  262144    3   11   11 
  524288    7   11   11 
  1048576    6   11   11 
  2097152    4   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   3.8166e-02   3.7272e-05   109.90   0.35   0.14   0.86 
  4096   2.7828e-02   5.4352e-05   150.72   0.23   0.09   0.58 
  8192   2.3377e-02   9.1316e-05   179.42   0.25   0.30   0.34 
  16384   2.0515e-02   1.6028e-04   204.45   0.13   0.16   0.18 
  32768   1.8950e-02   2.9610e-04   221.33   0.09   0.10   0.12 
  65536   1.6427e-02   5.1334e-04   255.33   0.03   0.04   0.06 
  131072   1.4799e-02   9.2496e-04   283.41   0.03   0.03   0.04 
  262144   1.3831e-02   1.7289e-03   303.25   0.02   0.02   0.03 
  524288   1.3451e-02   3.3627e-03   311.83   0.01   0.01   0.03 
  1048576   1.3230e-02   6.6151e-03   317.03   0.01   0.01   0.03 
  2097152   1.3153e-02   1.3153e-02   318.90   0.01   0.01   0.04 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   4   5 
  4096   0   2   1   4   5 
  8192   4   5   0   10   2 
  16384   4   5   10   0   2 
  32768   5   4   0   10   8 
  65536   4   5   10   1   7 
  131072   4   5   0   10   8 
  262144   4   5   6   10   1 
  524288   8   5   6   3   7 
  1048576   5   4   6   2   3 
  2097152   10   0   2   6   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   3   7 
  8192    1   2   3 
  16384    1   2   11 
  32768    1   2   11 
  65536    1   7   11 
  131072    2   11   11 
  262144    2   11   11 
  524288    6   11   11 
  1048576    5   11   11 
  2097152    6   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   3.4328e-02   3.3524e-05   122.18   0.39   0.15   1.01 
  4096   2.4272e-02   4.7406e-05   172.80   0.28   0.10   0.71 
  8192   2.0250e-02   7.9101e-05   207.13   0.28   0.33   0.39 
  16384   1.7546e-02   1.3708e-04   239.05   0.16   0.19   0.23 
  32768   1.6606e-02   2.5947e-04   252.58   0.07   0.09   0.11 
  65536   1.2702e-02   3.9694e-04   330.21   0.06   0.07   0.08 
  131072   1.1025e-02   6.8906e-04   380.44   0.04   0.04   0.05 
  262144   1.0203e-02   1.2754e-03   411.08   0.02   0.02   0.02 
  524288   9.6363e-03   2.4091e-03   435.26   0.02   0.02   0.02 
  1048576   9.6149e-03   4.8075e-03   436.23   0.02   0.02   0.03 
  2097152   1.0985e-02   1.0985e-02   381.81   0.01   0.01   0.03 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   4   5 
  4096   0   2   4   1   5 
  8192   4   5   0   10   2 
  16384   4   5   0   10   2 
  32768   4   5   6   10   0 
  65536   5   4   0   10   6 
  131072   4   5   0   6   10 
  262144   5   4   6   0   10 
  524288   5   4   10   6   9 
  1048576   4   3   2   5   0 
  2097152   6   7   1   4   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   1   7 
  8192    1   2   2 
  16384    1   2   11 
  32768    2   2   11 
  65536    2   2   11 
  131072    2   10   11 
  262144    2   11   11 
  524288    2   11   11 
  1048576    3   11   11 
  2097152    4   11   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:28 EDT.
86522 accesses since 1/2/96.