COMMTEST SP3-375 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM SP3-375 Winterhawk II SWAP Performance

(ordered swap of 128KB message using MPI between two nodes)

Date/Person: May 25, 2000 / P. Worley
Platform: IBM SP3 at Oak Ridge National Laboratory (eagle.ccs.ornl.gov):
     160 4-way Winterhawk II SMP nodes (375MHz POWER3 with 8MB L2 cache)
Environment: AIX 4.3.3;   PSSP 3.1.1
Communication Library: shared memory MPI within a node, MPI over the switch between nodes, using User Space protocol in both cases
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: 0 and 4, each on different (logically neighboring) nodes
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 45.39 25.73 39.7%
1 iter. 118.89 23.02 44.7%
10 iter. 125.05 23.74 45.3%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 47.19 24.01 46.3%
1 iter. 116.48 26.78 41.1%
10 iter. 123.39 26.12 44.1%
cache inv. w/overlap 46.41 25.32 41.6%
1 iter. w/overlap 115.74 29.66 40.8%
10 iter. w/overlap 123.71 26.24 43.7%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 44.92 26.21 39.1%
1 iter. 117.07 27.32 42.3%
10 iter. 123.48 26.23 43.3%
cache inv. w/overlap 45.16 25.26 40.0%
1 iter. w/overlap 118.37 29.64 40.5%
10 iter. w/overlap 124.28 26.03 43.8%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 44.45 26.13 39.4%
1 iter. 116.12 29.26 41.2%
10 iter. 123.31 28.86 41.9%
cache inv. w/overlap 45.98 28.48 38.5%
1 iter. w/overlap 116.90 30.56 41.2%
10 iter. w/overlap 124.20 28.36 42.7%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 45.01 27.73 40.2%
1 iter. 120.04 32.10 25.1%
10 iter. 128.60 32.12 26.3%
cache inv. w/overlap 46.10 25.07 41.7%
1 iter. w/overlap 121.29 29.87 24.6%
10 iter. w/overlap 129.50 25.98 31.0%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 46.71 31.53 37.6%
1 iter. 115.95 32.53 25.5%
10 iter. 127.57 32.23 25.7%
cache inv. w/overlap 46.07 31.16 35.1%
1 iter. w/overlap 123.99 30.63 26.3%
10 iter. w/overlap 129.57 28.31 29.1%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 47.32 27.41 42.0%
1 iter. 115.09 29.77 41.2%
10 iter. 124.28 29.86 41.5%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 82.08 78.09 49.9%
1 iter. 115.77 69.78 16.7%
10 iter. 123.89 65.18 19.9%
cache inv. w/overlap 44.62 76.16 26.6%
1 iter. w/overlap 113.95 69.01 17.4%
10 iter. w/overlap 124.78 65.11 21.2%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 46.16 72.45 32.2%
1 iter. 114.42 65.23 23.9%
10 iter. 123.70 65.68 19.4%
cache inv. w/overlap 47.02 75.31 29.5%
1 iter. w/overlap 116.23 65.18 19.8%
10 iter. w/overlap 124.78 64.86 22.0%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 46.79 77.40 29.5%
1 iter. 115.70 66.89 18.3%
10 iter. 124.08 66.52 22.6%
cache inv. w/overlap 46.14 76.83 28.0%
1 iter. w/overlap 114.06 69.88 16.3%
10 iter. w/overlap 124.24 66.32 20.5%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 114.66 81.48 57.6%
1 iter. 120.00 68.21 19.4%
10 iter. 124.57 65.83 19.0%


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   6.5008e-02   6.3485e-05   4.03   0.63   0.13   1.63 
  256   3.8656e-02   7.5500e-05   6.78   0.54   0.17   1.36 
  512   2.6866e-02   1.0494e-04   9.76   0.36   0.08   0.97 
  1024   2.0201e-02   1.5782e-04   12.98   0.25   0.08   0.65 
  2048   1.4411e-02   2.2517e-04   18.19   0.19   0.06   0.48 
  4096   1.1241e-02   3.5128e-04   23.32   0.13   0.05   0.35 
  8192   9.7241e-03   6.0776e-04   26.96   0.12   0.13   0.17 
  16384   7.7282e-03   9.6602e-04   33.92   0.08   0.09   0.11 
  32768   6.8281e-03   1.7070e-03   38.39   0.03   0.04   0.05 
  65536   6.0189e-03   3.0095e-03   43.55   0.03   0.02   0.09 
  131072   2.2863e-03   2.2863e-03   114.66   1.26   1.45   1.58 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   6   3 
  256   0   2   1   6   3 
  512   1   2   0   6   3 
  1024   2   0   6   3   4 
  2048   0   1   2   6   3 
  4096   0   6   2   1   3 
  8192   5   4   10   0   3 
  16384   5   4   0   3   10 
  32768   4   5   10   0   6 
  65536   4   9   0   5   6 
  131072   10   7   6   1   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   3   7 
  256    1   2   7 
  512    3   4   7 
  1024    2   4   7 
  2048    1   4   7 
  4096    1   6   8 
  8192    2   2   11 
  16384    1   2   11 
  32768    2   10   11 
  65536    1   9   11 
  131072    1   1   1 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   5.5334e-02   5.4037e-05   4.74   0.65   0.21   1.62 
  256   3.1764e-02   6.2039e-05   8.25   0.50   0.07   1.36 
  512   1.6333e-02   6.3801e-05   16.05   0.54   0.12   1.35 
  1024   1.1467e-02   8.9589e-05   22.86   0.35   0.09   0.93 
  2048   7.4983e-03   1.1716e-04   34.96   0.28   0.10   0.70 
  4096   5.2228e-03   1.6321e-04   50.19   0.23   0.08   0.56 
  8192   4.1750e-03   2.6094e-04   62.79   0.24   0.28   0.38 
  16384   3.2810e-03   4.1012e-04   79.90   0.15   0.17   0.20 
  32768   2.7911e-03   6.9777e-04   93.92   0.08   0.09   0.11 
  65536   2.3793e-03   1.1896e-03   110.18   0.05   0.06   0.07 
  131072   2.1838e-03   2.1838e-03   120.04   0.03   0.03   0.05 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   1   2   3   6 
  256   0   1   3   2   4 
  512   0   2   1   4   6 
  1024   1   0   3   2   6 
  2048   0   1   2   3   6 
  4096   0   2   1   3   6 
  8192   4   5   1   0   10 
  16384   4   5   10   2   9 
  32768   4   5   1   2   9 
  65536   4   5   2   7   10 
  131072   4   10   0   2   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    1   4   7 
  512    2   3   7 
  1024    4   4   7 
  2048    2   5   7 
  4096    1   3   7 
  8192    2   2   2 
  16384    1   2   11 
  32768    2   2   11 
  65536    2   4   11 
  131072    3   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   5.6104e-02   5.4789e-05   4.67   0.62   0.19   1.55 
  256   3.1793e-02   6.2096e-05   8.25   0.50   0.07   1.36 
  512   1.6547e-02   6.4638e-05   15.84   0.51   0.06   1.35 
  1024   1.1378e-02   8.8889e-05   23.04   0.34   0.06   0.95 
  2048   7.2933e-03   1.1396e-04   35.94   0.30   0.10   0.76 
  4096   5.2118e-03   1.6287e-04   50.30   0.21   0.06   0.53 
  8192   4.0810e-03   2.5507e-04   64.23   0.24   0.28   0.34 
  16384   3.1426e-03   3.9283e-04   83.42   0.15   0.18   0.20 
  32768   2.6275e-03   6.5688e-04   99.77   0.09   0.12   0.12 
  65536   2.2501e-03   1.1250e-03   116.50   0.06   0.07   0.07 
  131072   2.0385e-03   2.0385e-03   128.60   0.03   0.04   0.04 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   3   6 
  256   0   3   2   1   6 
  512   2   0   1   3   6 
  1024   2   0   1   3   6 
  2048   0   1   2   3   6 
  4096   1   0   2   6   3 
  8192   4   5   10   0   2 
  16384   4   5   2   0   3 
  32768   4   5   0   1   10 
  65536   4   5   0   9   7 
  131072   4   5   0   10   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    2   4   7 
  512    2   3   7 
  1024    4   5   7 
  2048    1   4   7 
  4096    2   5   7 
  8192    2   2   2 
  16384    2   2   11 
  32768    2   2   11 
  65536    2   2   11 
  131072    2   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   6.5889e-02   6.4344e-05   3.98   0.59   0.10   1.57 
  256   3.8712e-02   7.5609e-05   6.77   0.53   0.11   1.35 
  512   2.6172e-02   1.0223e-04   10.02   0.38   0.06   1.03 
  1024   1.9702e-02   1.5392e-04   13.31   0.27   0.06   0.68 
  2048   1.4145e-02   2.2101e-04   18.53   0.20   0.06   0.50 
  4096   1.1181e-02   3.4942e-04   23.44   0.13   0.04   0.32 
  8192   9.6199e-03   6.0124e-04   27.25   0.13   0.15   0.18 
  16384   7.7326e-03   9.6657e-04   33.90   0.07   0.09   0.12 
  32768   6.7244e-03   1.6811e-03   38.98   0.04   0.04   0.08 
  65536   5.9270e-03   2.9635e-03   44.23   0.04   0.04   0.08 
  131072   2.2800e-03   2.2800e-03   114.98   1.37   1.49   1.58 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   6 
  256   0   2   1   5   4 
  512   0   2   6   1   3 
  1024   0   1   2   4   6 
  2048   0   2   6   3   5 
  4096   0   2   1   6   3 
  8192   4   5   3   0   10 
  16384   4   5   10   8   0 
  32768   5   4   0   10   8 
  65536   5   4   10   9   0 
  131072   10   8   1   6   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    2   5   7 
  256    1   2   7 
  512    1   3   7 
  1024    1   3   7 
  2048    1   4   7 
  4096    1   6   7 
  8192    2   2   11 
  16384    2   2   11 
  32768    2   7   11 
  65536    1   7   11 
  131072    1   1   1 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   5.6036e-02   5.4723e-05   4.68   0.64   0.14   1.64 
  256   3.1989e-02   6.2479e-05   8.19   0.50   0.02   1.42 
  512   1.6379e-02   6.3981e-05   16.00   0.56   0.14   1.47 
  1024   1.1487e-02   8.9744e-05   22.82   0.34   0.04   1.00 
  2048   7.5216e-03   1.1752e-04   34.85   0.27   0.04   0.76 
  4096   5.4028e-03   1.6884e-04   48.52   0.19   0.02   0.50 
  8192   4.0603e-03   2.5377e-04   64.56   0.27   0.33   0.35 
  16384   3.1319e-03   3.9149e-04   83.70   0.20   0.24   0.26 
  32768   2.6933e-03   6.7332e-04   97.33   0.11   0.13   0.16 
  65536   2.2918e-03   1.1459e-03   114.38   0.08   0.10   0.11 
  131072   2.1143e-03   2.1143e-03   123.99   0.06   0.06   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   2   1   4   5 
  256   0   2   1   5   4 
  512   2   0   4   1   6 
  1024   2   0   1   4   5 
  2048   0   2   4   1   5 
  4096   4   0   2   6   5 
  8192   4   5   0   2   8 
  16384   4   5   10   8   2 
  32768   5   4   0   2   7 
  65536   4   5   3   2   7 
  131072   5   4   0   10   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    4   6   7 
  512    2   3   7 
  1024    3   6   7 
  2048    1   6   7 
  4096    2   7   7 
  8192    1   2   2 
  16384    1   2   8 
  32768    2   2   11 
  65536    2   2   11 
  131072    1   5   11 


Protocol Sensitivity Summary for Unidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   5.6132e-02   5.4817e-05   4.67   0.60   0.12   1.56 
  256   3.1243e-02   6.1021e-05   8.39   0.52   0.08   1.43 
  512   1.6913e-02   6.6067e-05   15.50   0.49   0.04   1.35 
  1024   1.1421e-02   8.9230e-05   22.95   0.35   0.03   0.95 
  2048   7.4532e-03   1.1646e-04   35.17   0.26   0.03   0.70 
  4096   5.1275e-03   1.6023e-04   51.13   0.22   0.05   0.56 
  8192   3.9600e-03   2.4750e-04   66.20   0.27   0.33   0.35 
  16384   3.0820e-03   3.8525e-04   85.06   0.17   0.21   0.22 
  32768   2.5856e-03   6.4640e-04   101.39   0.11   0.13   0.14 
  65536   2.2310e-03   1.1155e-03   117.50   0.06   0.07   0.08 
  131072   2.0232e-03   2.0232e-03   129.57   0.04   0.04   0.05 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   0   4   2   1   5 
  256   0   4   2   1   5 
  512   4   1   0   5   3 
  1024   0   2   4   6   3 
  2048   0   4   1   6   2 
  4096   0   2   1   4   6 
  8192   4   5   0   10   2 
  16384   4   5   2   0   10 
  32768   4   5   10   7   8 
  65536   4   5   0   3   7 
  131072   5   4   7   8   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   7 
  256    1   1   7 
  512    2   7   7 
  1024    1   7   7 
  2048    2   7   7 
  4096    1   5   7 
  8192    1   2   2 
  16384    2   2   11 
  32768    2   2   11 
  65536    2   2   11 
  131072    2   10   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:18:56 EDT.
86675 accesses since 1/2/96.