COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(unordered swap of 128KB message using MPI within a node)

(performance measured per processor when all processors in an 8 processor LPAR node communicating with neighboring processor)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
SWAP size: 16384 REAL*8 floating point values each direction
Message size: Largest - 16384 REAL*8 floating point values
Smallest - 16 REAL*8 floating point values
Processors: i and i+1, i=0,2,4,...,30
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

unordered swap using nonblocking send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 590.27 13.48 14.9%
1 iter.1647.19 13.79 32.6%
10 iter.2090.13 13.80 35.3%
cache inv. w/overlap 577.99 14.54 19.1%
1 iter. w/overlap1614.58 14.25 33.4%
10 iter. w/overlap2137.30 13.06 37.5%

unordered swap using nonblocking receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 591.73 10.70 19.1%
1 iter.1531.57 11.06 35.9%
10 iter.2082.93 11.07 40.2%
cache inv. w/overlap 621.84 10.91 19.8%
1 iter. w/overlap1542.99 11.05 36.8%
10 iter. w/overlap1948.58 9.83 41.6%

unordered swap using nonblocking send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 592.78 14.28 35.5%
1 iter.1518.68 14.32 41.4%
10 iter.1859.58 14.30 37.4%
cache inv. w/overlap 596.07 14.66 30.7%
1 iter. w/overlap1632.55 14.40 39.8%
10 iter. w/overlap2102.02 12.50 41.3%

unordered swap using ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 588.08 18.80 8.9%
1 iter.1584.78 18.90 13.0%
10 iter.2124.69 19.44 37.5%
cache inv. w/overlap 625.62 11.90 7.6%
1 iter. w/overlap1643.33 11.47 14.4%
10 iter. w/overlap2578.91 9.86 19.4%

unordered swap using nonblocking ready send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 591.46 23.33 12.8%
1 iter.1493.98 23.51 18.3%
10 iter.2071.24 23.45 37.5%
cache inv. w/overlap 618.07 14.76 12.2%
1 iter. w/overlap1548.46 14.42 14.3%
10 iter. w/overlap2508.84 12.23 23.4%

native sendrecv
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 599.21 9.25 22.3%
1 iter.1648.15 9.06 43.0%
10 iter.2144.13 9.23 45.5%

unordered swap using nonblocking sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 602.04 26.42 7.8%
1 iter.1661.10 25.85 16.4%
10 iter.2053.48 25.81 40.4%
cache inv. w/overlap 586.47 26.99 13.1%
1 iter. w/overlap1633.64 26.58 16.6%
10 iter. w/overlap2153.83 25.79 42.4%

unordered swap using nonblocking receive with sync. send
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 584.00 25.30 18.2%
1 iter.1508.89 25.11 23.4%
10 iter.2017.55 25.06 38.6%
cache inv. w/overlap 593.09 25.44 15.4%
1 iter. w/overlap1378.54 25.13 26.2%
10 iter. w/overlap2003.46 25.16 38.5%

unordered swap using nonblocking sync. send and receive
Data Statistics
bidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 630.64 27.99 18.1%
1 iter.1668.01 27.54 18.0%
10 iter.1864.80 27.37 19.5%
cache inv. w/overlap 587.59 27.37 12.3%
1 iter. w/overlap1559.02 26.66 15.9%
10 iter. w/overlap2062.72 26.29 41.4%


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.0115e-02   9.8784e-06   25.92   0.94   0.94   1.87 
  256   5.3793e-03   1.0506e-05   48.73   0.86   0.85   1.73 
  512   3.0528e-03   1.1925e-05   85.87   0.73   0.68   1.58 
  1024   1.7991e-03   1.4056e-05   145.71   0.60   0.56   1.37 
  2048   1.1207e-03   1.7510e-05   233.92   0.46   0.40   1.17 
  4096   7.2783e-04   2.2745e-05   360.17   0.37   0.35   1.07 
  8192   6.8572e-04   4.2858e-05   382.29   0.18   0.11   0.53 
  16384   5.5036e-04   6.8795e-05   476.31   0.12   0.03   0.42 
  32768   4.7248e-04   1.1812e-04   554.83   0.11   0.06   0.31 
  65536   4.3748e-04   2.1874e-04   599.21   0.06   0.04   0.19 
  131072   4.5173e-04   4.5173e-04   580.31   0.03   0.02   0.08 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   1   3   4 
  256   6   2   1   3   4 
  512   6   2   1   3   4 
  1024   6   2   1   3   4 
  2048   6   2   1   3   4 
  4096   2   6   1   3   4 
  8192   4   8   5   6   2 
  16384   4   6   2   8   5 
  32768   6   8   2   5   1 
  65536   6   4   8   9   1 
  131072   9   2   8   7   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   2 
  256    1   1   2 
  512    1   1   3 
  1024    2   2   4 
  2048    2   3   4 
  4096    1   2   4 
  8192    1   1   7 
  16384    2   6   7 
  32768    1   2   7 
  65536    1   5   9 
  131072    2   7   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.5724e-03   9.3481e-06   27.39   1.03   1.06   1.96 
  256   4.9342e-03   9.6372e-06   53.13   0.98   1.03   1.89 
  512   2.5118e-03   9.8117e-06   104.36   0.97   1.00   1.89 
  1024   1.4744e-03   1.1518e-05   177.80   0.74   0.70   1.56 
  2048   8.3339e-04   1.3022e-05   314.55   0.64   0.62   1.44 
  4096   4.7640e-04   1.4888e-05   550.26   0.60   0.57   1.34 
  8192   4.4281e-04   2.7676e-05   592.00   0.26   0.23   0.55 
  16384   2.9619e-04   3.7023e-05   885.06   0.19   0.12   0.55 
  32768   2.2423e-04   5.6057e-05   1169.10   0.13   0.06   0.42 
  65536   1.7860e-04   8.9300e-05   1467.77   0.08   0.03   0.28 
  131072   1.6645e-04   1.6645e-04   1574.88   0.13   0.08   0.48 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   1   3   4 
  256   6   2   1   3   4 
  512   6   2   1   3   4 
  1024   6   2   1   3   4 
  2048   6   2   1   3   4 
  4096   2   6   1   3   4 
  8192   4   5   6   8   2 
  16384   4   5   6   2   8 
  32768   4   5   2   6   8 
  65536   6   4   8   7   1 
  131072   4   3   2   7   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   2 
  256    1   1   2 
  512    1   1   2 
  1024    1   2   3 
  2048    2   2   4 
  4096    1   2   3 
  8192    1   1   5 
  16384    1   1   7 
  32768    1   4   7 
  65536    2   5   8 
  131072    1   3   8 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.4152e-03   9.1946e-06   27.84   1.06   1.11   2.00 
  256   4.6915e-03   9.1630e-06   55.88   1.07   1.11   2.04 
  512   2.4141e-03   9.4301e-06   108.59   1.03   1.06   2.00 
  1024   1.2648e-03   9.8815e-06   207.26   0.97   0.98   1.90 
  2048   6.8259e-04   1.0666e-05   384.04   0.89   0.90   1.81 
  4096   3.7873e-04   1.1835e-05   692.17   0.80   0.77   1.69 
  8192   3.7654e-04   2.3534e-05   696.18   0.35   0.36   0.57 
  16384   2.1471e-04   2.6839e-05   1220.90   0.29   0.22   0.65 
  32768   1.4631e-04   3.6577e-05   1791.74   0.24   0.15   0.66 
  65536   1.2226e-04   6.1131e-05   2144.13   0.11   0.04   0.39 
  131072   1.2994e-04   1.2994e-04   2017.40   0.06   0.05   0.12 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   1   3   4 
  256   6   2   1   3   4 
  512   6   2   1   3   4 
  1024   6   2   1   3   4 
  2048   6   2   1   3   4 
  4096   6   2   1   3   4 
  8192   4   5   6   2   8 
  16384   4   5   6   2   8 
  32768   4   5   6   2   8 
  65536   6   4   1   2   5 
  131072   4   8   7   5   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   2 
  256    1   1   1 
  512    1   1   2 
  1024    1   1   2 
  2048    1   1   2 
  4096    1   1   3 
  8192    1   1   2 
  16384    1   1   5 
  32768    1   1   7 
  65536    2   6   7 
  131072    1   4   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   1.0531e-02   1.0284e-05   24.89   0.71   0.45   1.69 
  256   5.6807e-03   1.1095e-05   46.15   0.61   0.36   1.52 
  512   3.2489e-03   1.2691e-05   80.69   0.51   0.27   1.36 
  1024   1.8351e-03   1.4337e-05   142.85   0.45   0.21   1.24 
  2048   1.0861e-03   1.6971e-05   241.35   0.39   0.17   1.14 
  4096   7.2376e-04   2.2617e-05   362.20   0.28   0.10   0.91 
  8192   5.8813e-04   3.6758e-05   445.72   0.31   0.26   0.66 
  16384   4.8863e-04   6.1078e-05   536.49   0.21   0.14   0.52 
  32768   4.5875e-04   1.1469e-04   571.44   0.09   0.07   0.22 
  65536   4.1901e-04   2.0951e-04   625.62   0.07   0.07   0.10 
  131072   4.3369e-04   4.3369e-04   604.45   0.06   0.05   0.09 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   4   1   3 
  256   6   2   4   1   5 
  512   6   2   4   1   3 
  1024   6   2   4   1   5 
  2048   6   2   4   1   3 
  4096   2   4   6   1   3 
  8192   4   5   6   8   2 
  16384   4   5   2   6   8 
  32768   4   5   6   7   2 
  65536   4   2   9   6   5 
  131072   4   8   3   9   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   3 
  256    1   1   3 
  512    2   3   4 
  1024    3   3   6 
  2048    2   3   6 
  4096    1   3   6 
  8192    1   2   3 
  16384    2   2   7 
  32768    1   2   9 
  65536    1   1   9 
  131072    1   4   9 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.3663e-03   9.1468e-06   27.99   0.88   0.60   1.96 
  256   4.9819e-03   9.7303e-06   52.62   0.79   0.52   1.83 
  512   2.7189e-03   1.0621e-05   96.41   0.67   0.41   1.63 
  1024   1.4825e-03   1.1582e-05   176.83   0.59   0.35   1.50 
  2048   8.4021e-04   1.3128e-05   312.00   0.49   0.21   1.33 
  4096   4.9896e-04   1.5592e-05   525.38   0.41   0.16   1.15 
  8192   3.3213e-04   2.0758e-05   789.27   0.58   0.65   0.96 
  16384   2.3579e-04   2.9473e-05   1111.78   0.44   0.43   0.83 
  32768   1.8797e-04   4.6993e-05   1394.58   0.28   0.32   0.46 
  65536   1.5952e-04   7.9760e-05   1643.33   0.17   0.19   0.24 
  131072   1.5885e-04   1.5885e-04   1650.23   0.17   0.12   0.62 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   4   1   5 
  256   6   2   4   1   5 
  512   6   2   4   1   3 
  1024   6   2   4   1   3 
  2048   2   6   4   1   3 
  4096   2   4   6   1   5 
  8192   4   5   6   8   2 
  16384   4   5   6   8   2 
  32768   4   5   2   6   7 
  65536   4   5   3   2   8 
  131072   4   8   6   9   5 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   2 
  256    1   1   3 
  512    1   1   3 
  1024    1   2   4 
  2048    1   2   6 
  4096    1   3   6 
  8192    1   1   2 
  16384    1   1   2 
  32768    1   1   3 
  65536    1   1   9 
  131072    1   1   7 


Protocol Sensitivity Summary for Bidirectional Swap of 131072 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  128   9.2823e-03   9.0648e-06   28.24   0.77   0.37   1.92 
  256   4.6819e-03   9.1443e-06   55.99   0.77   0.39   1.91 
  512   2.4121e-03   9.4225e-06   108.68   0.74   0.36   1.84 
  1024   1.2661e-03   9.8912e-06   207.05   0.70   0.34   1.78 
  2048   6.7851e-04   1.0602e-05   386.35   0.65   0.33   1.66 
  4096   3.8202e-04   1.1938e-05   686.21   0.58   0.31   1.51 
  8192   2.4785e-04   1.5491e-05   1057.65   0.89   1.03   1.23 
  16384   1.5980e-04   1.9975e-05   1640.41   0.58   0.65   0.85 
  32768   1.1959e-04   2.9897e-05   2192.08   0.38   0.42   0.64 
  65536   1.0165e-04   5.0825e-05   2578.91   0.20   0.23   0.32 
  131072   1.1818e-04   1.1818e-04   2218.10   0.13   0.14   0.21 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  128   6   2   4   3   5 
  256   6   2   4   3   5 
  512   6   2   4   3   5 
  1024   6   2   4   3   5 
  2048   6   2   4   1   5 
  4096   6   2   4   1   3 
  8192   4   5   6   2   8 
  16384   4   5   6   2   8 
  32768   4   5   6   2   8 
  65536   4   5   7   1   3 
  131072   4   5   7   3   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  128    1   1   3 
  256    1   1   3 
  512    1   1   3 
  1024    1   1   3 
  2048    1   2   3 
  4096    1   1   4 
  8192    1   1   2 
  16384    1   1   2 
  32768    1   2   2 
  65536    1   2   6 
  131072    1   2   9 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:20:39 EDT.
81307 accesses since 1/2/96.