COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 2MB message using MPI within a node)

(performance measured per processor when all processors in an 8 processor LPAR node communicating with neighboring processor)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
SWAP size: 262144 REAL*8 floating point values each direction
Message size: Largest - 262144 REAL*8 floating point values
Smallest - 256 REAL*8 floating point values
Processors: i and i+1, i=0,2,4,...,30
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 778.15 9.88 44.1%
1 iter. 827.71 9.63 45.2%
10 iter.1334.48 10.12 38.9%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 779.74 11.42 41.8%
1 iter. 832.08 11.24 42.3%
10 iter.1306.13 11.10 37.4%
cache inv. w/overlap 775.95 11.17 42.4%
1 iter. w/overlap 831.17 11.05 43.1%
10 iter. w/overlap1289.46 11.41 37.2%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 780.31 11.31 42.4%
1 iter. 829.43 11.13 42.6%
10 iter.1303.30 10.71 38.6%
cache inv. w/overlap 778.05 10.95 43.3%
1 iter. w/overlap 833.44 10.89 43.8%
10 iter. w/overlap1277.66 11.11 36.7%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 781.19 12.43 40.5%
1 iter. 823.33 12.43 40.7%
10 iter.1279.64 12.23 36.4%
cache inv. w/overlap 776.86 12.36 37.7%
1 iter. w/overlap 832.63 12.27 38.0%
10 iter. w/overlap1274.68 12.74 36.3%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 776.66 13.83 25.8%
1 iter. 824.40 13.59 23.0%
10 iter.1435.56 13.71 42.7%
cache inv. w/overlap 773.63 11.11 26.0%
1 iter. w/overlap 835.66 11.06 27.0%
10 iter. w/overlap1460.52 11.40 43.4%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 773.03 15.33 23.0%
1 iter. 831.02 15.34 23.1%
10 iter.1410.56 15.55 41.5%
cache inv. w/overlap 772.60 12.23 25.2%
1 iter. w/overlap 833.62 12.31 25.9%
10 iter. w/overlap1420.28 12.69 42.1%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 778.15 11.23 42.9%
1 iter. 821.14 11.71 42.0%
10 iter.1298.96 11.99 37.1%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 770.82 22.85 20.9%
1 iter. 828.20 22.84 20.6%
10 iter.1305.40 23.15 36.7%
cache inv. w/overlap 775.48 22.14 23.0%
1 iter. w/overlap 834.25 21.73 22.5%
10 iter. w/overlap1290.69 23.12 36.0%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 785.68 24.14 19.8%
1 iter. 828.95 24.06 19.7%
10 iter.1310.15 23.36 37.0%
cache inv. w/overlap 771.32 24.12 19.9%
1 iter. w/overlap 830.34 23.83 19.9%
10 iter. w/overlap1294.61 23.21 36.1%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 768.19 23.03 21.8%
1 iter. 838.09 23.29 22.3%
10 iter.1292.31 24.35 35.9%
cache inv. w/overlap 773.71 22.52 20.9%
1 iter. w/overlap 824.19 22.54 21.1%
10 iter. w/overlap1270.69 23.42 35.3%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 781.61 22.96 20.4%
1 iter. 839.31 22.81 19.4%
10 iter.1342.46 22.37 38.3%


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.8048e-02   2.7390e-05   149.54   0.45   0.28   1.00 
  4096   1.7926e-02   3.5012e-05   233.98   0.34   0.21   0.81 
  8192   1.4668e-02   5.7299e-05   285.94   0.26   0.31   0.35 
  16384   1.1142e-02   8.7049e-05   376.43   0.17   0.21   0.25 
  32768   9.5898e-03   1.4984e-04   437.37   0.09   0.10   0.12 
  65536   7.5439e-03   2.3575e-04   555.99   0.06   0.08   0.10 
  131072   6.5359e-03   4.0849e-04   641.74   0.03   0.03   0.04 
  262144   6.0485e-03   7.5606e-04   693.45   0.02   0.02   0.03 
  524288   5.7996e-03   1.4499e-03   723.21   0.02   0.02   0.03 
  1048576   5.5741e-03   2.7870e-03   752.46   0.01   0.01   0.02 
  2097152   5.4864e-03   5.4864e-03   764.49   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   6   1   3 
  4096   0   2   1   6   3 
  8192   4   5   0   10   8 
  16384   4   5   0   10   8 
  32768   5   4   0   10   8 
  65536   5   4   10   0   7 
  131072   4   5   0   6   10 
  262144   4   5   10   2   0 
  524288   5   0   2   4   3 
  1048576   0   4   1   3   8 
  2097152   8   0   3   1   4 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   5 
  4096    1   1   6 
  8192    1   2   2 
  16384    1   2   11 
  32768    2   2   11 
  65536    2   2   11 
  131072    2   11   11 
  262144    2   11   11 
  524288    2   11   11 
  1048576    7   11   11 
  2097152    8   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.7383e-02   2.6741e-05   153.17   0.46   0.29   1.02 
  4096   1.7523e-02   3.4225e-05   239.36   0.33   0.21   0.80 
  8192   1.4023e-02   5.4777e-05   299.10   0.28   0.33   0.38 
  16384   1.0661e-02   8.3288e-05   393.43   0.18   0.21   0.24 
  32768   8.8684e-03   1.3857e-04   472.95   0.12   0.13   0.16 
  65536   7.1371e-03   2.2304e-04   587.67   0.06   0.08   0.09 
  131072   6.1263e-03   3.8289e-04   684.64   0.03   0.04   0.05 
  262144   5.7023e-03   7.1279e-04   735.55   0.02   0.02   0.04 
  524288   5.4360e-03   1.3590e-03   771.58   0.01   0.01   0.02 
  1048576   5.1947e-03   2.5974e-03   807.41   0.01   0.01   0.03 
  2097152   4.8748e-03   4.8748e-03   860.40   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   6   3 
  4096   0   2   1   6   3 
  8192   4   5   10   0   7 
  16384   4   5   10   0   8 
  32768   4   5   10   0   2 
  65536   4   5   0   10   8 
  131072   5   4   10   8   7 
  262144   4   5   2   10   0 
  524288   10   1   4   5   3 
  1048576   2   10   5   4   1 
  2097152   1   3   4   0   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   5 
  4096    1   2   6 
  8192    1   2   2 
  16384    1   2   11 
  32768    1   2   11 
  65536    2   2   11 
  131072    2   11   11 
  262144    1   11   11 
  524288    7   11   11 
  1048576    5   11   11 
  2097152    7   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.2963e-02   2.2425e-05   182.65   0.54   0.32   1.23 
  4096   1.2604e-02   2.4618e-05   332.77   0.48   0.30   1.09 
  8192   9.4370e-03   3.6863e-05   444.45   0.41   0.49   0.54 
  16384   5.8877e-03   4.5998e-05   712.38   0.33   0.39   0.47 
  32768   4.1935e-03   6.5523e-05   1000.19   0.24   0.29   0.32 
  65536   3.0649e-03   9.5777e-05   1368.51   0.17   0.20   0.24 
  131072   2.9217e-03   1.8261e-04   1435.56   0.08   0.10   0.12 
  262144   3.7172e-03   4.6465e-04   1128.36   0.02   0.03   0.04 
  524288   5.0434e-03   1.2609e-03   831.64   0.01   0.01   0.02 
  1048576   5.1864e-03   2.5932e-03   808.71   0.00   0.00   0.01 
  2097152   5.0335e-03   5.0335e-03   833.28   0.01   0.01   0.01 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   6   3 
  4096   0   2   1   6   3 
  8192   4   5   0   10   1 
  16384   4   5   0   10   8 
  32768   4   5   0   10   2 
  65536   4   5   10   0   2 
  131072   4   5   10   0   8 
  262144   4   5   0   10   6 
  524288   4   5   10   0   6 
  1048576   5   4   0   1   2 
  2097152   0   5   9   10   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   5 
  4096    1   1   5 
  8192    1   1   2 
  16384    1   2   2 
  32768    1   2   2 
  65536    1   2   11 
  131072    1   2   11 
  262144    2   11   11 
  524288    5   11   11 
  1048576    11   11   11 
  2097152    8   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.7741e-02   2.7091e-05   151.19   0.42   0.19   0.99 
  4096   1.8031e-02   3.5218e-05   232.61   0.30   0.13   0.74 
  8192   1.3638e-02   5.3275e-05   307.54   0.33   0.38   0.44 
  16384   1.0652e-02   8.3221e-05   393.75   0.22   0.25   0.28 
  32768   9.2488e-03   1.4451e-04   453.50   0.12   0.14   0.16 
  65536   7.4797e-03   2.3374e-04   560.76   0.08   0.09   0.10 
  131072   6.5280e-03   4.0800e-04   642.51   0.03   0.04   0.05 
  262144   6.0176e-03   7.5220e-04   697.01   0.03   0.03   0.04 
  524288   5.8296e-03   1.4574e-03   719.48   0.01   0.01   0.02 
  1048576   5.5508e-03   2.7754e-03   755.63   0.02   0.01   0.03 
  2097152   5.4815e-03   5.4815e-03   765.18   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   6   1   4 
  4096   0   2   6   1   4 
  8192   4   5   9   3   0 
  16384   4   5   0   9   10 
  32768   4   5   3   10   9 
  65536   4   5   0   10   8 
  131072   4   5   0   6   2 
  262144   4   5   0   8   2 
  524288   4   5   7   0   9 
  1048576   4   5   9   0   2 
  2097152   3   4   6   9   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   1   7 
  8192    1   2   2 
  16384    1   2   5 
  32768    1   2   11 
  65536    1   2   11 
  131072    2   10   11 
  262144    2   11   11 
  524288    2   11   11 
  1048576    2   11   11 
  2097152    4   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.7172e-02   2.6535e-05   154.36   0.42   0.19   1.00 
  4096   1.7489e-02   3.4158e-05   239.83   0.31   0.13   0.76 
  8192   1.3087e-02   5.1120e-05   320.50   0.34   0.39   0.46 
  16384   1.0251e-02   8.0090e-05   409.14   0.21   0.24   0.27 
  32768   8.8171e-03   1.3777e-04   475.70   0.12   0.14   0.17 
  65536   7.1147e-03   2.2234e-04   589.52   0.07   0.08   0.10 
  131072   6.1154e-03   3.8221e-04   685.86   0.04   0.05   0.06 
  262144   5.6816e-03   7.1020e-04   738.23   0.02   0.03   0.04 
  524288   5.4054e-03   1.3513e-03   775.95   0.02   0.03   0.04 
  1048576   5.2021e-03   2.6011e-03   806.26   0.01   0.01   0.02 
  2097152   4.8853e-03   4.8853e-03   858.55   0.01   0.01   0.01 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   4   6 
  4096   0   2   6   1   4 
  8192   4   5   9   0   10 
  16384   4   5   0   10   3 
  32768   4   5   10   0   3 
  65536   4   5   0   2   3 
  131072   4   5   10   0   1 
  262144   4   5   0   2   6 
  524288   4   5   0   10   9 
  1048576   5   4   0   10   6 
  2097152   0   5   8   1   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   1   7 
  8192    1   2   2 
  16384    1   2   6 
  32768    1   2   11 
  65536    2   2   11 
  131072    2   6   11 
  262144    2   11   11 
  524288    2   11   11 
  1048576    4   11   11 
  2097152    7   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.3010e-02   2.2470e-05   182.29   0.49   0.20   1.17 
  4096   1.2672e-02   2.4750e-05   331.00   0.43   0.15   1.05 
  8192   8.1996e-03   3.2029e-05   511.53   0.61   0.72   0.79 
  16384   5.3319e-03   4.1656e-05   786.64   0.44   0.51   0.61 
  32768   3.9532e-03   6.1769e-05   1060.99   0.31   0.37   0.40 
  65536   2.9702e-03   9.2818e-05   1412.14   0.22   0.26   0.29 
  131072   2.8718e-03   1.7949e-04   1460.52   0.11   0.13   0.15 
  262144   3.6406e-03   4.5508e-04   1152.09   0.04   0.04   0.07 
  524288   5.0070e-03   1.2517e-03   837.70   0.02   0.02   0.02 
  1048576   5.1572e-03   2.5786e-03   813.30   0.01   0.01   0.02 
  2097152   5.0303e-03   5.0303e-03   833.80   0.01   0.01   0.01 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   4   6 
  4096   0   2   1   4   6 
  8192   4   5   0   10   7 
  16384   4   5   0   10   2 
  32768   4   5   0   10   1 
  65536   4   5   0   10   7 
  131072   4   5   10   0   8 
  262144   4   5   0   10   6 
  524288   4   5   10   0   6 
  1048576   4   5   0   8   10 
  2097152   4   5   0   1   6 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   1   7 
  8192    1   1   2 
  16384    1   2   2 
  32768    1   2   2 
  65536    1   2   4 
  131072    1   2   11 
  262144    1   8   11 
  524288    2   11   11 
  1048576    3   11   11 
  2097152    7   11   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:21:18 EDT.
81084 accesses since 1/2/96.