COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 2MB message using MPI within a node)

(performance measured per processor when all processors in node communicating with neighboring processor)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
SWAP size: 262144 REAL*8 floating point values each direction
Message size: Largest - 262144 REAL*8 floating point values
Smallest - 256 REAL*8 floating point values
Processors: i and i+1, i=0,2,4,...,30
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 486.88 -0.78 77.1%
1 iter. 530.45 -1.08 80.9%
10 iter.1059.46 -2.01 100.7%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 492.00 -0.51 77.4%
1 iter. 528.23 -0.15 76.6%
10 iter.1050.81 0.15 83.8%
cache inv. w/overlap 480.11 -0.24 75.3%
1 iter. w/overlap 531.95 -0.37 77.9%
10 iter. w/overlap1041.26 0.68 81.2%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 488.83 -0.12 74.4%
1 iter. 533.36 -0.25 76.8%
10 iter.1043.69 -1.74 98.1%
cache inv. w/overlap 483.30 0.06 73.1%
1 iter. w/overlap 537.18 -0.04 75.6%
10 iter. w/overlap1047.97 -0.86 91.1%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 486.28 0.51 73.4%
1 iter. 532.19 0.62 74.5%
10 iter.1034.86 0.92 81.2%
cache inv. w/overlap 490.43 2.83 64.5%
1 iter. w/overlap 529.88 3.07 64.4%
10 iter. w/overlap1036.17 1.80 77.3%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 488.99 13.12 18.9%
1 iter. 530.86 13.00 22.1%
10 iter.1184.21 13.21 54.7%
cache inv. w/overlap 490.30 11.57 19.5%
1 iter. w/overlap 533.02 11.07 21.9%
10 iter. w/overlap1222.87 11.40 56.3%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 487.29 14.03 18.5%
1 iter. 530.09 13.98 19.6%
10 iter.1160.10 14.35 53.8%
cache inv. w/overlap 491.41 12.12 19.8%
1 iter. w/overlap 529.96 12.16 20.1%
10 iter. w/overlap1204.39 12.66 55.5%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 489.39 0.84 71.6%
1 iter. 528.45 1.10 71.9%
10 iter.1040.83 -0.27 86.8%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 488.05 21.78 17.1%
1 iter. 538.77 21.94 18.9%
10 iter.1044.21 23.70 48.3%
cache inv. w/overlap 484.95 22.83 16.1%
1 iter. w/overlap 531.82 22.52 17.2%
10 iter. w/overlap1036.81 23.09 48.0%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 484.77 22.84 14.6%
1 iter. 526.63 22.77 16.1%
10 iter.1033.17 23.09 47.8%
cache inv. w/overlap 483.20 23.64 13.9%
1 iter. w/overlap 542.52 23.51 16.7%
10 iter. w/overlap1045.86 23.30 48.5%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 486.91 22.85 15.9%
1 iter. 533.63 22.40 18.2%
10 iter.1027.31 24.25 47.5%
cache inv. w/overlap 479.96 21.58 15.5%
1 iter. w/overlap 530.93 21.90 17.5%
10 iter. w/overlap1027.91 24.15 47.7%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 482.38 22.56 14.5%
1 iter. 525.23 22.63 15.6%
10 iter.1058.10 22.24 49.1%


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   3.0594e-02   2.9877e-05   137.10   0.38   0.21   0.88 
  4096   2.3608e-02   4.6110e-05   177.66   0.33   0.38   0.45 
  8192   1.7161e-02   6.7036e-05   244.41   0.22   0.26   0.29 
  16384   1.4228e-02   1.1116e-04   294.79   0.12   0.14   0.16 
  32768   1.2648e-02   1.9762e-04   331.63   0.06   0.08   0.09 
  65536   1.0676e-02   3.3362e-04   392.87   0.03   0.04   0.05 
  131072   9.6658e-03   6.0412e-04   433.93   0.01   0.01   0.02 
  262144   9.2426e-03   1.1553e-03   453.80   0.01   0.02   0.02 
  524288   8.9630e-03   2.2408e-03   467.96   0.02   0.02   0.03 
  1048576   8.8290e-03   4.4145e-03   475.06   0.01   0.01   0.02 
  2097152   8.7527e-03   8.7527e-03   479.20   0.01   0.01   0.03 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   6   3 
  4096   4   5   10   0   8 
  8192   4   5   0   10   8 
  16384   4   5   0   10   8 
  32768   4   5   0   10   8 
  65536   4   5   0   8   2 
  131072   5   4   0   10   1 
  262144   4   6   10   1   3 
  524288   4   8   3   10   0 
  1048576   1   5   0   8   7 
  2097152   0   5   4   10   8 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   6 
  4096    1   2   2 
  8192    1   2   4 
  16384    1   2   11 
  32768    2   2   11 
  65536    2   10   11 
  131072    5   11   11 
  262144    4   11   11 
  524288    2   11   11 
  1048576    5   11   11 
  2097152    5   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.9787e-02   2.9089e-05   140.81   0.39   0.22   0.89 
  4096   2.2886e-02   4.4699e-05   183.27   0.34   0.40   0.46 
  8192   1.6630e-02   6.4961e-05   252.21   0.21   0.26   0.29 
  16384   1.3446e-02   1.0505e-04   311.93   0.13   0.16   0.18 
  32768   1.2061e-02   1.8845e-04   347.77   0.07   0.08   0.09 
  65536   1.0052e-02   3.1414e-04   417.24   0.04   0.05   0.07 
  131072   9.0820e-03   5.6763e-04   461.82   0.01   0.01   0.02 
  262144   8.5840e-03   1.0730e-03   488.62   0.02   0.02   0.03 
  524288   8.3286e-03   2.0822e-03   503.60   0.01   0.01   0.02 
  1048576   7.9991e-03   3.9996e-03   524.34   0.02   0.01   0.03 
  2097152   7.5695e-03   7.5695e-03   554.11   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   6   3 
  4096   4   5   10   0   8 
  8192   4   5   0   10   2 
  16384   4   5   0   8   10 
  32768   5   4   10   1   8 
  65536   4   5   2   10   7 
  131072   4   5   10   8   0 
  262144   10   5   0   7   4 
  524288   0   3   4   8   6 
  1048576   10   6   1   5   7 
  2097152   4   5   10   7   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   6 
  4096    1   2   2 
  8192    1   2   4 
  16384    1   2   11 
  32768    1   2   11 
  65536    1   7   11 
  131072    2   11   11 
  262144    2   11   11 
  524288    4   11   11 
  1048576    2   11   11 
  2097152    3   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.3060e-02   2.2519e-05   181.89   0.53   0.28   1.23 
  4096   1.5949e-02   3.1151e-05   262.98   0.52   0.62   0.67 
  8192   9.2569e-03   3.6160e-05   453.10   0.44   0.52   0.58 
  16384   5.9494e-03   4.6480e-05   705.00   0.34   0.41   0.48 
  32768   4.4178e-03   6.9029e-05   949.40   0.23   0.28   0.31 
  65536   3.5418e-03   1.1068e-04   1184.21   0.13   0.15   0.17 
  131072   3.8021e-03   2.3763e-04   1103.15   0.05   0.06   0.07 
  262144   5.0752e-03   6.3440e-04   826.43   0.01   0.01   0.02 
  524288   7.4217e-03   1.8554e-03   565.14   0.00   0.00   0.01 
  1048576   7.9300e-03   3.9650e-03   528.92   0.00   0.00   0.01 
  2097152   7.7219e-03   7.7219e-03   543.17   0.00   0.00   0.01 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   6   3 
  4096   4   5   0   10   1 
  8192   4   5   0   10   2 
  16384   4   5   0   10   2 
  32768   4   5   0   10   2 
  65536   4   5   0   10   2 
  131072   4   5   0   10   1 
  262144   4   0   5   1   10 
  524288   4   0   8   5   6 
  1048576   4   5   7   1   8 
  2097152   0   10   8   9   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   2   5 
  4096    1   1   2 
  8192    1   1   2 
  16384    1   2   2 
  32768    1   2   3 
  65536    1   2   11 
  131072    2   5   11 
  262144    4   11   11 
  524288    11   11   11 
  1048576    11   11   11 
  2097152    10   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   3.0041e-02   2.9337e-05   139.62   0.38   0.17   0.89 
  4096   2.2478e-02   4.3903e-05   186.59   0.36   0.43   0.49 
  8192   1.6670e-02   6.5115e-05   251.61   0.24   0.28   0.31 
  16384   1.3807e-02   1.0787e-04   303.78   0.14   0.16   0.20 
  32768   1.2467e-02   1.9480e-04   336.43   0.08   0.09   0.11 
  65536   1.0640e-02   3.3250e-04   394.20   0.04   0.05   0.06 
  131072   9.6306e-03   6.0191e-04   435.52   0.02   0.02   0.03 
  262144   9.2734e-03   1.1592e-03   452.30   0.01   0.01   0.02 
  524288   9.1370e-03   2.2843e-03   459.04   0.01   0.01   0.02 
  1048576   8.7503e-03   4.3752e-03   479.33   0.02   0.02   0.02 
  2097152   8.8170e-03   8.8170e-03   475.71   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   6   1   4 
  4096   4   5   10   0   9 
  8192   4   5   10   3   9 
  16384   4   5   0   3   9 
  32768   4   5   0   10   8 
  65536   4   5   2   0   3 
  131072   5   4   2   0   10 
  262144   4   8   5   3   1 
  524288   5   0   6   10   4 
  1048576   10   4   0   5   8 
  2097152   1   0   2   4   9 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   2   2 
  8192    2   2   2 
  16384    2   2   11 
  32768    2   2   11 
  65536    2   7   11 
  131072    2   11   11 
  262144    2   11   11 
  524288    8   11   11 
  1048576    2   11   11 
  2097152    6   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.9095e-02   2.8413e-05   144.16   0.39   0.18   0.91 
  4096   2.1241e-02   4.1486e-05   197.46   0.40   0.46   0.53 
  8192   1.5838e-02   6.1867e-05   264.82   0.25   0.29   0.33 
  16384   1.3153e-02   1.0276e-04   318.89   0.15   0.17   0.19 
  32768   1.1859e-02   1.8530e-04   353.68   0.08   0.09   0.10 
  65536   1.0020e-02   3.1312e-04   418.60   0.04   0.04   0.05 
  131072   8.9320e-03   5.5825e-04   469.58   0.02   0.02   0.04 
  262144   8.6095e-03   1.0762e-03   487.17   0.01   0.01   0.02 
  524288   8.2893e-03   2.0723e-03   505.99   0.02   0.02   0.03 
  1048576   8.0431e-03   4.0215e-03   521.48   0.01   0.01   0.02 
  2097152   7.5915e-03   7.5915e-03   552.50   0.01   0.01   0.02 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   1   4   6 
  4096   4   5   10   0   9 
  8192   4   5   0   10   3 
  16384   4   5   0   9   10 
  32768   5   4   0   10   8 
  65536   5   4   10   0   2 
  131072   5   4   10   6   0 
  262144   5   4   2   6   0 
  524288   4   5   10   1   0 
  1048576   4   9   10   3   5 
  2097152   4   8   10   9   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   2   2 
  8192    1   2   2 
  16384    1   2   11 
  32768    2   2   11 
  65536    2   10   11 
  131072    2   11   11 
  262144    5   11   11 
  524288    1   11   11 
  1048576    5   11   11 
  2097152    4   11   11 


Protocol Sensitivity Summary for Unidirectional Swap of 2097152 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  2048   2.2905e-02   2.2368e-05   183.12   0.51   0.22   1.22 
  4096   1.4118e-02   2.7573e-05   297.10   0.68   0.79   0.89 
  8192   8.4290e-03   3.2926e-05   497.60   0.58   0.70   0.77 
  16384   5.5863e-03   4.3643e-05   750.82   0.42   0.50   0.57 
  32768   4.2593e-03   6.6552e-05   984.74   0.27   0.33   0.36 
  65536   3.4299e-03   1.0718e-04   1222.87   0.16   0.20   0.22 
  131072   3.7227e-03   2.3267e-04   1126.68   0.06   0.08   0.10 
  262144   4.9737e-03   6.2171e-04   843.30   0.02   0.03   0.04 
  524288   7.3414e-03   1.8354e-03   571.32   0.01   0.01   0.02 
  1048576   7.9383e-03   3.9691e-03   528.37   0.00   0.00   0.01 
  2097152   7.7197e-03   7.7197e-03   543.33   0.00   0.00   0.01 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  2048   0   2   4   1   6 
  4096   4   5   1   0   10 
  8192   4   5   0   10   7 
  16384   4   5   0   10   2 
  32768   4   5   10   0   7 
  65536   4   5   0   10   2 
  131072   4   5   0   10   2 
  262144   4   5   10   0   6 
  524288   4   0   5   10   6 
  1048576   5   10   7   2   6 
  2097152   4   2   9   0   3 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  2048    1   1   7 
  4096    1   1   2 
  8192    1   1   2 
  16384    1   2   2 
  32768    1   2   2 
  65536    1   2   11 
  131072    2   2   11 
  262144    2   11   11 
  524288    5   11   11 
  1048576    11   11   11 
  2097152    10   11   11 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:21:13 EDT.
81597 accesses since 1/2/96.