COMMTEST IBM p690 Point-to-Point Communication Performance

Performance Studies using

COMMTEST


IBM p690 SWAP Performance

(ordered swap of 8KB message using MPI within a node)

(performance measured per processor when all processors in an 8 processor LPAR node communicating with neighboring processor)

Date/Person: April 4, 2002 / P. Worley
Platform: IBM p690 at Oak Ridge National Laboratory (cheetah.ccs.ornl.gov):
     p690 32-way Turbo SMP node (1.3 GHz POWER4)
Environment: AIX 5.1L
Communication Library: MPI
SWAP size: 1024 REAL*8 floating point values each direction
Message size: Largest - 1024 REAL*8 floating point values
Smallest - 1 REAL*8 floating point values
Processors: i and i+1, i=0,2,4,...,30
Latency Definition:(T1024-T512)/512
Model Error Range:[1,1024]
Results:

ordered simple swap
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 176.45 9.82 42.3%
1 iter. 275.95 9.61 48.8%
10 iter. 339.66 9.76 80.9%

ordered swap using nonblocking send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 149.96 11.13 40.8%
1 iter. 280.42 11.07 75.8%
10 iter. 308.75 11.01 83.0%
cache inv. w/overlap 147.76 11.41 40.1%
1 iter. w/overlap 274.22 11.37 73.4%
10 iter. w/overlap 307.95 11.13 83.7%

ordered swap using nonblocking receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 149.95 10.96 40.1%
1 iter. 297.31 10.84 78.7%
10 iter. 306.36 10.82 80.9%
cache inv. w/overlap 170.19 11.24 46.7%
1 iter. w/overlap 296.31 11.07 80.1%
10 iter. w/overlap 321.75 10.92 85.8%

ordered swap using nonblocking send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 143.95 12.03 39.8%
1 iter. 267.42 11.97 78.1%
10 iter. 298.98 11.92 82.0%
cache inv. w/overlap 155.49 12.47 44.9%
1 iter. w/overlap 264.09 12.44 80.2%
10 iter. w/overlap 298.30 12.23 89.0%

ordered swap using ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 183.57 13.62 30.5%
1 iter. 388.25 13.62 64.6%
10 iter. 443.88 13.64 73.9%
cache inv. w/overlap 211.17 11.66 30.1%
1 iter. w/overlap 444.09 11.59 62.8%
10 iter. w/overlap 555.99 11.11 75.4%

ordered swap using nonblocking ready send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 173.27 14.78 31.3%
1 iter. 392.59 14.70 70.4%
10 iter. 426.22 14.55 75.7%
cache inv. w/overlap 198.55 12.40 30.1%
1 iter. w/overlap 447.49 12.27 67.0%
10 iter. w/overlap 514.72 12.31 77.3%

synchronous
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 149.18 11.29 35.8%
1 iter. 270.78 11.26 55.0%
10 iter. 295.63 11.23 81.0%

ordered swap using nonblocking sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 152.74 23.23 43.3%
1 iter. 273.31 22.86 76.3%
10 iter. 304.04 23.04 85.5%
cache inv. w/overlap 148.16 23.33 42.2%
1 iter. w/overlap 273.31 22.66 75.6%
10 iter. w/overlap 306.51 22.31 83.5%

ordered swap using nonblocking receive with sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 147.91 23.27 42.0%
1 iter. 274.22 23.14 77.5%
10 iter. 307.99 23.17 87.1%
cache inv. w/overlap 159.81 23.66 46.2%
1 iter. w/overlap 278.64 23.40 79.6%
10 iter. w/overlap 309.60 22.90 86.5%

ordered swap using nonblocking sync. send and receive
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 138.21 23.73 40.0%
1 iter. 260.56 23.77 75.6%
10 iter. 293.88 23.73 85.1%
cache inv. w/overlap 150.63 21.88 40.2%
1 iter. w/overlap 296.31 21.75 78.7%
10 iter. w/overlap 300.60 23.70 87.0%

ordered simple swap using sync. send
Data Statistics
unidirectional bandwidth estimated latency model error
(peak MByte/sec) (usec/msg) (max. rel. error)
cache inv. 158.90 22.13 42.9%
1 iter. 279.53 22.00 75.1%
10 iter. 312.55 21.99 83.9%


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv./no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.0229e-02   1.9755e-05   0.81   0.62   0.38   1.42 
  16   1.0173e-02   1.9870e-05   1.61   0.62   0.36   1.43 
  32   5.1581e-03   2.0149e-05   3.18   0.60   0.36   1.40 
  64   2.5857e-03   2.0201e-05   6.34   0.61   0.37   1.38 
  128   1.3241e-03   2.0689e-05   12.37   0.59   0.35   1.37 
  256   6.8723e-04   2.1476e-05   23.84   0.58   0.37   1.34 
  512   3.8127e-04   2.3829e-05   42.97   0.53   0.33   1.20 
  1024   2.1761e-04   2.7202e-05   75.29   0.50   0.37   1.04 
  2048   1.3809e-04   3.4523e-05   118.64   0.42   0.36   0.91 
  4096   9.2853e-05   4.6427e-05   176.45   0.40   0.30   0.77 
  8192   9.4373e-05   9.4373e-05   173.61   0.10   0.10   0.20 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   1   2   6   3 
  512   0   2   6   1   3 
  1024   0   2   6   1   3 
  2048   0   6   2   1   3 
  4096   0   1   2   6   3 
  8192   5   4   0   6   10 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   5 
  64    1   1   5 
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   4 
  2048    1   1   5 
  4096    1   1   5 
  8192    2   3   11 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.0040e-02   1.9571e-05   0.82   0.63   0.39   1.43 
  16   1.0202e-02   1.9926e-05   1.61   0.60   0.37   1.39 
  32   5.0311e-03   1.9653e-05   3.26   0.62   0.38   1.42 
  64   2.5273e-03   1.9745e-05   6.48   0.61   0.39   1.41 
  128   1.2855e-03   2.0086e-05   12.74   0.60   0.36   1.40 
  256   6.4387e-04   2.0121e-05   25.45   0.61   0.39   1.39 
  512   3.3299e-04   2.0812e-05   49.20   0.59   0.38   1.35 
  1024   1.7527e-04   2.1908e-05   93.48   0.55   0.33   1.25 
  2048   9.4747e-05   2.3687e-05   172.92   0.52   0.36   1.15 
  4096   5.5107e-05   2.7553e-05   297.31   0.44   0.25   0.99 
  8192   4.6373e-05   4.6373e-05   353.31   0.33   0.40   0.47 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   1   2   6   3 
  2048   0   2   1   3   6 
  4096   2   1   3   0   6 
  8192   5   4   6   10   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   5 
  64    1   1   5 
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   5 
  2048    1   2   5 
  4096    1   1   6 
  8192    1   2   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations/no overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   1.9982e-02   1.9514e-05   0.82   0.63   0.39   1.44 
  16   9.9866e-03   1.9505e-05   1.64   0.63   0.39   1.44 
  32   5.0096e-03   1.9569e-05   3.27   0.62   0.39   1.44 
  64   2.5167e-03   1.9662e-05   6.51   0.62   0.37   1.43 
  128   1.2679e-03   1.9812e-05   12.92   0.61   0.37   1.42 
  256   6.4158e-04   2.0050e-05   25.54   0.61   0.37   1.40 
  512   3.2839e-04   2.0524e-05   49.89   0.58   0.35   1.35 
  1024   1.6840e-04   2.1050e-05   97.29   0.57   0.35   1.31 
  2048   8.8603e-05   2.2151e-05   184.92   0.54   0.31   1.24 
  4096   4.8236e-05   2.4118e-05   339.66   0.50   0.32   1.12 
  8192   3.6628e-05   3.6628e-05   447.31   0.40   0.47   0.53 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   3 
  16   0   2   1   6   3 
  32   0   2   1   6   3 
  64   0   2   1   6   3 
  128   0   2   1   6   3 
  256   0   2   1   6   3 
  512   0   2   1   6   3 
  1024   0   2   1   6   3 
  2048   0   2   1   6   3 
  4096   0   1   2   6   3 
  8192   4   5   10   0   7 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   5 
  32    1   1   5 
  64    1   1   5 
  128    1   1   5 
  256    1   1   5 
  512    1   1   5 
  1024    1   1   5 
  2048    1   1   5 
  4096    1   1   5 
  8192    1   1   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (cache inv. with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.0388e-02   1.9910e-05   0.80   0.57   0.25   1.36 
  16   1.0248e-02   2.0015e-05   1.60   0.56   0.24   1.34 
  32   5.1404e-03   2.0080e-05   3.19   0.56   0.25   1.34 
  64   2.6085e-03   2.0379e-05   6.28   0.55   0.24   1.31 
  128   1.3281e-03   2.0751e-05   12.34   0.54   0.24   1.29 
  256   6.8439e-04   2.1387e-05   23.94   0.54   0.23   1.34 
  512   3.8424e-04   2.4015e-05   42.64   0.48   0.21   1.12 
  1024   2.2184e-04   2.7730e-05   73.86   0.42   0.18   0.97 
  2048   1.3904e-04   3.4760e-05   117.84   0.34   0.15   0.82 
  4096   9.4080e-05   4.7040e-05   174.15   0.29   0.17   0.66 
  8192   8.0627e-05   8.0627e-05   203.21   0.23   0.27   0.36 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   6   4 
  16   0   2   6   1   4 
  32   0   2   6   1   4 
  64   0   2   6   1   4 
  128   0   2   1   6   4 
  256   0   2   6   1   4 
  512   0   6   2   4   1 
  1024   0   6   2   1   4 
  2048   0   2   4   6   5 
  4096   0   2   4   3   6 
  8192   4   5   0   10   2 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   6 
  16    1   1   7 
  32    1   1   6 
  64    1   1   7 
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   2   7 
  8192    2   2   5 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (1 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.0114e-02   1.9642e-05   0.81   0.57   0.25   1.37 
  16   1.0106e-02   1.9738e-05   1.62   0.56   0.25   1.34 
  32   5.0518e-03   1.9734e-05   3.24   0.56   0.25   1.35 
  64   2.5412e-03   1.9853e-05   6.45   0.56   0.24   1.34 
  128   1.2965e-03   2.0258e-05   12.64   0.54   0.23   1.31 
  256   6.4931e-04   2.0291e-05   25.23   0.55   0.23   1.32 
  512   3.3517e-04   2.0948e-05   48.88   0.53   0.23   1.27 
  1024   1.7793e-04   2.2242e-05   92.08   0.49   0.19   1.16 
  2048   9.2507e-05   2.3127e-05   177.11   0.50   0.19   1.16 
  4096   5.2827e-05   2.6413e-05   310.15   0.45   0.17   1.09 
  8192   3.9173e-05   3.9173e-05   418.24   0.54   0.66   0.72 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   6   1   4 
  16   0   2   1   6   4 
  32   0   2   6   1   4 
  64   0   2   1   6   4 
  128   0   2   1   6   4 
  256   0   2   1   6   4 
  512   0   2   1   4   6 
  1024   0   2   4   1   3 
  2048   0   2   1   4   3 
  4096   0   2   4   1   5 
  8192   4   5   10   8   0 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   5 
  16    1   1   7 
  32    1   1   7 
  64    1   1   7 
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   2   7 
  8192    1   2   2 


Protocol Sensitivity Summary for Unidirectional Swap of 8192 Bytes (10 iterations with overlap)
Runtime Statistics
Msg Sizemin Secmin Sec/Msgmax MBytes/Sec(mean-min)/min(median-min)/min(max-min)/min
  8   2.0144e-02   1.9672e-05   0.81   0.57   0.24   1.41 
  16   1.0068e-02   1.9665e-05   1.63   0.57   0.24   1.41 
  32   5.0396e-03   1.9686e-05   3.25   0.57   0.24   1.40 
  64   2.5198e-03   1.9686e-05   6.50   0.57   0.24   1.40 
  128   1.2897e-03   2.0152e-05   12.70   0.54   0.22   1.35 
  256   6.4444e-04   2.0139e-05   25.42   0.56   0.23   1.36 
  512   3.2704e-04   2.0440e-05   50.10   0.54   0.22   1.33 
  1024   1.6823e-04   2.1029e-05   97.39   0.52   0.21   1.30 
  2048   8.9703e-05   2.2426e-05   182.65   0.48   0.17   1.17 
  4096   4.8248e-05   2.4124e-05   339.58   0.43   0.14   1.06 
  8192   3.0056e-05   3.0056e-05   545.12   0.68   0.82   0.87 
Five Fastest
Protocols
Msg Size1st2nd3rd4th5th
  8   0   2   1   4   6 
  16   0   2   1   4   6 
  32   0   2   1   4   6 
  64   0   2   1   4   6 
  128   0   2   1   4   6 
  256   0   2   1   4   6 
  512   0   2   1   4   6 
  1024   0   2   4   1   6 
  2048   0   2   1   6   4 
  4096   0   4   2   1   3 
  8192   4   5   0   10   1 
       Number of Proctocols With
Runtimes Within X% of Min
Msg Size1%5%25%
  8    1   1   7 
  16    1   1   7 
  32    1   1   7 
  64    1   1   7 
  128    1   1   7 
  256    1   1   7 
  512    1   1   7 
  1024    1   1   7 
  2048    1   1   7 
  4096    1   1   7 
  8192    1   1   2 

DISCUSSION


Patrick H. Worley / ( worleyph@ornl.gov)
Last Modified Monday, 15-Jul-2002 10:21:50 EDT.
81343 accesses since 1/2/96.