COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(unordered swap of 128KB message using MPI between two nodes)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 4, each on different (logically neighboring) nodes
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered simple swap
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 48.15 30.29 13.7%
1 iter. 147.45 29.11 28.8%
10 iter. 160.50 23.13 34.2%

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 54.84 29.00 22.4%
1 iter. 155.60 30.97 32.0%
10 iter. 170.00 31.41 32.4%
cache inv. w/overlap 54.05 30.01 20.6%
1 iter. w/overlap 152.27 31.39 28.3%
10 iter. w/overlap 171.27 27.98 32.6%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 53.09 30.40 20.5%
1 iter. 156.96 32.41 40.5%
10 iter. 169.89 31.46 34.4%
cache inv. w/overlap 53.98 29.26 35.8%
1 iter. w/overlap 157.53 33.44 40.0%
10 iter. w/overlap 134.08 25.64 27.1%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 52.45 27.94 24.2%
1 iter. 156.99 33.05 27.8%
10 iter. 148.07 33.92 32.5%
cache inv. w/overlap 54.07 28.27 23.3%
1 iter. w/overlap 154.37 34.35 28.4%
10 iter. w/overlap 127.99 29.48 39.5%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 52.88 65.49 7.8%
1 iter. 164.97 50.90 18.6%
10 iter. 171.41 53.96 14.0%
cache inv. w/overlap 53.77 29.20 21.6%
1 iter. w/overlap 165.87 33.76 12.6%
10 iter. w/overlap 178.14 25.17 23.8%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 54.21 64.82 11.8%
1 iter. 160.84 62.46 16.1%
10 iter. 172.50 53.51 14.9%
cache inv. w/overlap 54.66 28.44 24.0%
1 iter. w/overlap 164.34 34.18 13.7%
10 iter. w/overlap 177.96 29.57 19.1%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 54.75 30.33 27.3%
1 iter. 164.58 31.44 31.8%
10 iter. 151.35 30.20 30.3%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 52.51 75.69 19.5%
1 iter. 156.26 75.24 10.0%
10 iter. 169.89 75.16 9.0%
cache inv. w/overlap 52.43 84.49 12.5%
1 iter. w/overlap 160.41 76.78 8.7%
10 iter. w/overlap 170.68 75.16 10.1%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 52.55 84.25 34.3%
1 iter. 152.68 77.81 17.7%
10 iter. 148.59 73.28 28.8%
cache inv. w/overlap 54.59 84.32 32.4%
1 iter. w/overlap 151.93 77.95 23.8%
10 iter. w/overlap 146.76 69.43 22.1%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 52.83 89.97 32.1%
1 iter. 150.31 75.02 28.3%
10 iter. 149.97 74.65 22.2%
cache inv. w/overlap 52.10 85.31 26.8%
1 iter. w/overlap 153.64 79.18 30.2%
10 iter. w/overlap 168.72 75.49 33.9%


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.6303e-02   3.5452e-05   7.22   0.67   0.93   1.74 
  256   2.1184e-02   4.1375e-05   12.37   0.59   0.73   1.52 
  512   1.4285e-02   5.5802e-05   18.35   0.46   0.52   1.36 
  1024   1.0798e-02   8.4360e-05   24.28   0.38   0.33   1.19 
  2048   7.7797e-03   1.2156e-04   33.70   0.32   0.28   1.03 
  4096   6.3145e-03   1.9733e-04   41.51   0.22   0.19   0.76 
  8192   6.0582e-03   3.7864e-04   43.27   0.14   0.11   0.41 
  16384   5.2683e-03   6.5854e-04   49.76   0.07   0.07   0.14 
  32768   5.1646e-03   1.2911e-03   50.76   0.04   0.03   0.09 
  65536   4.9380e-03   2.4690e-03   53.09   0.05   0.03   0.16 
  131072   4.7801e-03   4.7801e-03   54.84   0.05   0.04   0.21 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   1   6   0   2   3 
  256   6   0   1   2   3 
  512   6   0   1   2   3 
  1024   2   0   1   6   3 
  2048   6   0   3   2   1 
  4096   6   2   1   0   3 
  8192   5   4   1   7   3 
  16384   4   5   7   6   0 
  32768   5   7   6   1   4 
  65536   2   1   4   9   6 
  131072   1   6   5   4   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   5   5 
  256    2   4   5 
  512    2   5   5 
  1024    2   5   5 
  2048    2   5   5 
  4096    3   5   7 
  8192    2   3   8 
  16384    1   3   10 
  32768    2   6   10 
  65536    2   8   10 
  131072    2   9   10 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.2900e-02   3.2129e-05   7.97   0.62   0.70   1.54 
  256   1.7808e-02   3.4781e-05   14.72   0.57   0.63   1.52 
  512   9.4304e-03   3.6838e-05   27.80   0.58   0.70   1.50 
  1024   6.3573e-03   4.9667e-05   41.23   0.49   0.56   1.43 
  2048   4.0633e-03   6.3489e-05   64.52   0.39   0.42   1.25 
  4096   2.9690e-03   9.2783e-05   88.29   0.26   0.30   0.87 
  8192   2.7105e-03   1.6941e-04   96.71   0.14   0.15   0.36 
  16384   2.1598e-03   2.6997e-04   121.37   0.08   0.10   0.14 
  32768   1.9902e-03   4.9755e-04   131.72   0.08   0.05   0.18 
  65536   1.7555e-03   8.7777e-04   149.32   0.09   0.05   0.37 
  131072   1.5890e-03   1.5890e-03   164.97   0.05   0.06   0.12 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   6   2   3 
  256   2   6   0   1   3 
  512   2   6   0   1   3 
  1024   1   6   0   3   2 
  2048   6   1   0   2   3 
  4096   6   2   1   3   0 
  8192   5   4   8   3   6 
  16384   4   5   7   2   8 
  32768   5   4   7   6   1 
  65536   4   9   1   7   5 
  131072   4   6   5   3   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   4   5 
  256    2   5   5 
  512    4   5   5 
  1024    2   3   5 
  2048    2   5   5 
  4096    1   5   5 
  8192    2   2   9 
  16384    1   2   10 
  32768    2   5   10 
  65536    1   5   9 
  131072    2   3   10 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.9227e-02   2.8542e-05   8.97   0.81   1.00   1.83 
  256   1.7386e-02   3.3956e-05   15.08   0.62   0.78   1.57 
  512   9.3218e-03   3.6413e-05   28.12   0.60   0.73   1.55 
  1024   5.9282e-03   4.6314e-05   44.22   0.54   0.65   1.45 
  2048   3.9191e-03   6.1236e-05   66.89   0.37   0.45   1.14 
  4096   2.8698e-03   8.9682e-05   91.35   0.28   0.28   1.01 
  8192   2.6394e-03   1.6496e-04   99.32   0.16   0.18   0.30 
  16384   2.0253e-03   2.5317e-04   129.43   0.08   0.09   0.12 
  32768   1.8356e-03   4.5891e-04   142.81   0.21   0.34   0.40 
  65536   1.6706e-03   8.3531e-04   156.91   0.11   0.08   0.31 
  131072   1.5197e-03   1.5197e-03   172.50   0.09   0.07   0.29 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   6   2   1   3 
  256   0   6   3   2   1 
  512   1   0   6   2   3 
  1024   0   6   2   1   3 
  2048   0   2   1   6   3 
  4096   6   2   1   0   3 
  8192   4   5   7   1   0 
  16384   4   5   9   7   1 
  32768   4   5   1   7   0 
  65536   5   4   1   7   3 
  131072   5   4   1   7   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   5 
  256    1   3   5 
  512    4   5   5 
  1024    2   3   5 
  2048    3   5   5 
  4096    2   5   5 
  8192    1   2   9 
  16384    1   2   10 
  32768    1   2   5 
  65536    1   4   9 
  131072    2   5   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.6437e-02   3.5583e-05   7.19   0.49   0.03   1.67 
  256   2.1496e-02   4.1985e-05   12.19   0.44   0.07   1.49 
  512   1.4110e-02   5.5117e-05   18.58   0.37   0.06   1.28 
  1024   1.0942e-02   8.5481e-05   23.96   0.26   0.01   1.04 
  2048   7.9279e-03   1.2387e-04   33.07   0.23   0.03   0.90 
  4096   6.1936e-03   1.9355e-04   42.32   0.18   0.04   0.64 
  8192   5.4063e-03   3.3789e-04   48.49   0.22   0.21   0.53 
  16384   5.0416e-03   6.3020e-04   52.00   0.09   0.11   0.16 
  32768   4.9302e-03   1.2326e-03   53.17   0.06   0.05   0.20 
  65536   4.8023e-03   2.4012e-03   54.59   0.06   0.05   0.15 
  131072   4.7955e-03   4.7955e-03   54.66   0.04   0.03   0.22 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   6   4   2   1 
  256   6   1   4   2   0 
  512   2   6   4   0   1 
  1024   0   1   6   4   3 
  2048   4   1   5   6   0 
  4096   1   4   3   6   0 
  8192   4   5   0   1   7 
  16384   4   5   1   3   7 
  32768   4   5   1   2   3 
  65536   8   4   1   5   9 
  131072   5   8   3   1   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    3   7   7 
  256    2   4   7 
  512    1   5   7 
  1024    5   7   7 
  2048    2   7   7 
  4096    2   6   7 
  8192    2   2   7 
  16384    2   2   10 
  32768    1   6   10 
  65536    1   5   10 
  131072    2   8   10 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   2.8682e-02   2.8009e-05   9.14   0.69   0.24   1.88 
  256   1.8085e-02   3.5322e-05   14.50   0.40   0.00   1.33 
  512   9.4032e-03   3.6731e-05   27.88   0.45   0.02   1.55 
  1024   6.1853e-03   4.8323e-05   42.38   0.41   0.09   1.48 
  2048   4.0397e-03   6.3120e-05   64.89   0.31   0.06   1.18 
  4096   2.9487e-03   9.2148e-05   88.90   0.20   0.05   0.77 
  8192   2.3178e-03   1.4486e-04   113.10   0.36   0.35   0.84 
  16384   1.9164e-03   2.3955e-04   136.79   0.23   0.22   0.68 
  32768   1.7407e-03   4.3519e-04   150.59   0.22   0.27   0.44 
  65536   1.5804e-03   7.9021e-04   165.87   0.14   0.16   0.20 
  131072   1.5816e-03   1.5816e-03   165.75   0.05   0.07   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   6   2   4 
  256   6   4   3   2   5 
  512   4   0   6   1   2 
  1024   0   6   4   1   5 
  2048   0   2   6   5   1 
  4096   4   1   2   6   3 
  8192   5   4   7   8   1 
  16384   4   5   1   8   7 
  32768   4   5   7   9   1 
  65536   4   5   7   8   1 
  131072   4   5   6   7   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    7   7   7 
  512    3   7   7 
  1024    1   3   7 
  2048    3   3   7 
  4096    2   6   7 
  8192    1   2   2 
  16384    1   2   7 
  32768    1   2   5 
  65536    1   2   10 
  131072    2   4   10 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   3.0449e-02   2.9735e-05   8.61   0.52   0.11   1.65 
  256   1.6206e-02   3.1651e-05   16.18   0.55   0.16   1.72 
  512   9.2926e-03   3.6299e-05   28.21   0.46   0.05   1.57 
  1024   6.0101e-03   4.6954e-05   43.62   0.38   0.05   1.28 
  2048   3.9161e-03   6.1189e-05   66.94   0.27   0.04   1.01 
  4096   2.8625e-03   8.9452e-05   91.58   0.21   0.03   0.80 
  8192   2.2483e-03   1.4052e-04   116.60   0.40   0.34   0.86 
  16384   1.8521e-03   2.3151e-04   141.54   0.17   0.20   0.24 
  32768   1.6342e-03   4.0855e-04   160.41   0.35   0.50   0.63 
  65536   1.5568e-03   7.7842e-04   168.38   0.17   0.15   0.39 
  131072   1.4716e-03   1.4716e-03   178.14   0.14   0.10   0.39 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   2   1   4   0   6 
  256   1   2   4   0   6 
  512   6   0   1   2   4 
  1024   6   0   2   4   1 
  2048   2   4   6   1   5 
  4096   2   1   6   4   0 
  8192   4   5   1   7   6 
  16384   4   5   1   7   6 
  32768   5   4   7   1   0 
  65536   4   5   7   1   6 
  131072   4   5   1   7   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    3   4   7 
  256    1   1   7 
  512    2   5   7 
  1024    2   6   7 
  2048    4   7   7 
  4096    4   7   7 
  8192    1   2   2 
  16384    2   2   10 
  32768    1   2   5 
  65536    2   2   7 
  131072    2   4   8 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:45 EDT.
86570 accesses since 1/2/96.