<div dir="auto">Ack. Very much correct and I intended to. Yes, some lldb tests depended on tail call optimization which is no longer run at O1 and so needed O2. <div dir="auto"><br></div><div dir="auto">Thanks!</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Dec 2, 2019, 7:27 AM David Blaikie <<a href="mailto:dblaikie@gmail.com">dblaikie@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Might be handy to mention what was different in the recommit/what was done to address the reason for the revert? (also including the revert hash can make some of the archaeology a bit easier)<br><br>I guess the recommit addresses the issue with all those lldb test changes that switch -O1 -> -O2?<br><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Nov 26, 2019 at 11:30 PM Eric Christopher via cfe-commits <<a href="mailto:cfe-commits@lists.llvm.org" target="_blank" rel="noreferrer">cfe-commits@lists.llvm.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><br>
Author: Eric Christopher<br>
Date: 2019-11-26T20:28:52-08:00<br>
New Revision: fd39b1bb20cec32c310ae9b6f1b4603c17a5f832<br>
<br>
URL: <a href="https://github.com/llvm/llvm-project/commit/fd39b1bb20cec32c310ae9b6f1b4603c17a5f832" rel="noreferrer noreferrer" target="_blank">https://github.com/llvm/llvm-project/commit/fd39b1bb20cec32c310ae9b6f1b4603c17a5f832</a><br>
DIFF: <a href="https://github.com/llvm/llvm-project/commit/fd39b1bb20cec32c310ae9b6f1b4603c17a5f832.diff" rel="noreferrer noreferrer" target="_blank">https://github.com/llvm/llvm-project/commit/fd39b1bb20cec32c310ae9b6f1b4603c17a5f832.diff</a><br>
<br>
LOG: Revert "Revert "As a follow-up to my initial mail to llvm-dev here's a first pass at the O1 described there.""<br>
<br>
This reapplies: 8ff85ed905a7306977d07a5cd67ab4d5a56fafb4<br>
<br>
Original commit message:<br>
<br>
As a follow-up to my initial mail to llvm-dev here's a first pass at the O1 described there.<br>
<br>
This change doesn't include any change to move from selection dag to fast isel<br>
and that will come with other numbers that should help inform that decision.<br>
There also haven't been any real debuggability studies with this pipeline yet,<br>
this is just the initial start done so that people could see it and we could start<br>
tweaking after.<br>
<br>
Test updates: Outside of the newpm tests most of the updates are coming from either<br>
optimization passes not run anymore (and without a compelling argument at the moment)<br>
that were largely used for canonicalization in clang.<br>
<br>
Original post:<br>
<br>
<a href="http://lists.llvm.org/pipermail/llvm-dev/2019-April/131494.html" rel="noreferrer noreferrer" target="_blank">http://lists.llvm.org/pipermail/llvm-dev/2019-April/131494.html</a><br>
<br>
Tags: #llvm<br>
Differential Revision: <a href="https://reviews.llvm.org/D65410" rel="noreferrer noreferrer" target="_blank">https://reviews.llvm.org/D65410</a><br>
<br>
This reverts commit c9ddb02659e3ece7a0d9d6b4dac7ceea4ae46e6d.<br>
<br>
Added: <br>
<br>
<br>
Modified: <br>
    clang/test/CodeGen/2008-07-30-implicit-initialization.c<br>
    clang/test/CodeGen/arm-fp16-arguments.c<br>
    clang/test/CodeGen/arm-vfp16-arguments2.cpp<br>
    clang/test/CodeGen/atomic-ops-libcall.c<br>
    clang/test/CodeGenCXX/atomicinit.cpp<br>
    clang/test/CodeGenCXX/auto-var-init.cpp<br>
    clang/test/CodeGenCXX/discard-name-values.cpp<br>
    clang/test/CodeGenCXX/microsoft-abi-dynamic-cast.cpp<br>
    clang/test/CodeGenCXX/microsoft-abi-typeid.cpp<br>
    clang/test/CodeGenCXX/nrvo.cpp<br>
    clang/test/CodeGenCXX/stack-reuse.cpp<br>
    clang/test/CodeGenCXX/wasm-args-returns.cpp<br>
    clang/test/CodeGenObjCXX/<a href="http://arc-blocks.mm" rel="noreferrer noreferrer" target="_blank">arc-blocks.mm</a><br>
    clang/test/CodeGenObjCXX/<a href="http://nrvo.mm" rel="noreferrer noreferrer" target="_blank">nrvo.mm</a><br>
    clang/test/Lexer/minimize_source_to_dependency_directives_invalid_error.c<br>
    clang/test/PCH/no-escaping-block-tail-calls.cpp<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq1/Makefile<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq2/Makefile<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_call_site/Makefile<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_paths_to_common_sink/Makefile<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_tail_call_seq/Makefile<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/inlining_and_tail_calls/Makefile<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/sbapi_support/Makefile<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_message/Makefile<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_or_return/Makefile<br>
    lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/unambiguous_sequence/Makefile<br>
    llvm/include/llvm/Passes/PassBuilder.h<br>
    llvm/lib/Passes/PassBuilder.cpp<br>
    llvm/lib/Transforms/IPO/PassManagerBuilder.cpp<br>
    llvm/test/CodeGen/AMDGPU/simplify-libcalls.ll<br>
    llvm/test/Feature/optnone-opt.ll<br>
    llvm/test/Other/new-pm-defaults.ll<br>
    llvm/test/Other/new-pm-thinlto-defaults.ll<br>
    llvm/test/Transforms/MemCpyOpt/lifetime.ll<br>
    llvm/test/Transforms/PhaseOrdering/simplifycfg-options.ll<br>
    llvm/test/Transforms/PhaseOrdering/two-shifts-by-sext.ll<br>
<br>
Removed: <br>
<br>
<br>
<br>
################################################################################<br>
diff  --git a/clang/test/CodeGen/2008-07-30-implicit-initialization.c b/clang/test/CodeGen/2008-07-30-implicit-initialization.c<br>
index e77c70a140f9..f2621f4560ec 100644<br>
--- a/clang/test/CodeGen/2008-07-30-implicit-initialization.c<br>
+++ b/clang/test/CodeGen/2008-07-30-implicit-initialization.c<br>
@@ -1,4 +1,4 @@<br>
-// RUN: %clang_cc1 -triple i386-unknown-unknown -O1 -emit-llvm -o - %s | FileCheck %s<br>
+// RUN: %clang_cc1 -triple i386-unknown-unknown -O2 -emit-llvm -o - %s | FileCheck %s<br>
 // CHECK-LABEL: define i32 @f0()<br>
 // CHECK:   ret i32 0<br>
 // CHECK-LABEL: define i32 @f1()<br>
<br>
diff  --git a/clang/test/CodeGen/arm-fp16-arguments.c b/clang/test/CodeGen/arm-fp16-arguments.c<br>
index d739f4b9c66a..34dc1a1cbf6a 100644<br>
--- a/clang/test/CodeGen/arm-fp16-arguments.c<br>
+++ b/clang/test/CodeGen/arm-fp16-arguments.c<br>
@@ -1,6 +1,6 @@<br>
-// RUN: %clang_cc1 -triple armv7a--none-eabi -target-abi aapcs -mfloat-abi soft -fallow-half-arguments-and-returns -emit-llvm -o - -O1 %s | FileCheck %s --check-prefix=CHECK --check-prefix=SOFT<br>
-// RUN: %clang_cc1 -triple armv7a--none-eabi -target-abi aapcs -mfloat-abi hard -fallow-half-arguments-and-returns -emit-llvm -o - -O1 %s | FileCheck %s --check-prefix=CHECK --check-prefix=HARD<br>
-// RUN: %clang_cc1 -triple armv7a--none-eabi -target-abi aapcs -mfloat-abi soft -fnative-half-arguments-and-returns -emit-llvm -o - -O1 %s | FileCheck %s --check-prefix=NATIVE<br>
+// RUN: %clang_cc1 -triple armv7a--none-eabi -target-abi aapcs -mfloat-abi soft -fallow-half-arguments-and-returns -emit-llvm -o - -O2 %s | FileCheck %s --check-prefix=CHECK --check-prefix=SOFT<br>
+// RUN: %clang_cc1 -triple armv7a--none-eabi -target-abi aapcs -mfloat-abi hard -fallow-half-arguments-and-returns -emit-llvm -o - -O2 %s | FileCheck %s --check-prefix=CHECK --check-prefix=HARD<br>
+// RUN: %clang_cc1 -triple armv7a--none-eabi -target-abi aapcs -mfloat-abi soft -fnative-half-arguments-and-returns -emit-llvm -o - -O2 %s | FileCheck %s --check-prefix=NATIVE<br>
<br>
 __fp16 g;<br>
<br>
<br>
diff  --git a/clang/test/CodeGen/arm-vfp16-arguments2.cpp b/clang/test/CodeGen/arm-vfp16-arguments2.cpp<br>
index 4f75971d8327..e436a5ecd6ab 100644<br>
--- a/clang/test/CodeGen/arm-vfp16-arguments2.cpp<br>
+++ b/clang/test/CodeGen/arm-vfp16-arguments2.cpp<br>
@@ -1,12 +1,12 @@<br>
 // RUN: %clang_cc1 -triple armv7a--none-eabi -target-abi aapcs \<br>
-// RUN:   -mfloat-abi soft -target-feature +neon -emit-llvm -o - -O1 %s \<br>
+// RUN:   -mfloat-abi soft -target-feature +neon -emit-llvm -o - -O2 %s \<br>
 // RUN:   | FileCheck %s --check-prefix=CHECK-SOFT<br>
 // RUN: %clang_cc1 -triple armv7a--none-eabi -target-abi aapcs \<br>
-// RUN:   -mfloat-abi hard -target-feature +neon -emit-llvm -o - -O1 %s \<br>
+// RUN:   -mfloat-abi hard -target-feature +neon -emit-llvm -o - -O2 %s \<br>
 // RUN:   | FileCheck %s --check-prefix=CHECK-HARD<br>
 // RUN: %clang_cc1 -triple armv7a--none-eabi -target-abi aapcs \<br>
 // RUN:   -mfloat-abi hard -target-feature +neon -target-feature +fullfp16 \<br>
-// RUN:   -emit-llvm -o - -O1 %s \<br>
+// RUN:   -emit-llvm -o - -O2 %s \<br>
 // RUN:   | FileCheck %s --check-prefix=CHECK-FULL<br>
<br>
 typedef float float32_t;<br>
<br>
diff  --git a/clang/test/CodeGen/atomic-ops-libcall.c b/clang/test/CodeGen/atomic-ops-libcall.c<br>
index c673b07f8ed8..ca79688c8a0c 100644<br>
--- a/clang/test/CodeGen/atomic-ops-libcall.c<br>
+++ b/clang/test/CodeGen/atomic-ops-libcall.c<br>
@@ -10,109 +10,109 @@ enum memory_order {<br>
<br>
 int *test_c11_atomic_fetch_add_int_ptr(_Atomic(int *) *p) {<br>
   // CHECK: test_c11_atomic_fetch_add_int_ptr<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_add_4(i8* {{%[0-9]+}}, i32 12, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_add_4(i8* {{%[0-9]+}}, i32 12, i32 5)<br>
   return __c11_atomic_fetch_add(p, 3, memory_order_seq_cst);<br>
 }<br>
<br>
 int *test_c11_atomic_fetch_sub_int_ptr(_Atomic(int *) *p) {<br>
   // CHECK: test_c11_atomic_fetch_sub_int_ptr<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 20, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 20, i32 5)<br>
   return __c11_atomic_fetch_sub(p, 5, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_c11_atomic_fetch_add_int(_Atomic(int) *p) {<br>
   // CHECK: test_c11_atomic_fetch_add_int<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_add_4(i8* {{%[0-9]+}}, i32 3, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_add_4(i8* {{%[0-9]+}}, i32 3, i32 5)<br>
   return __c11_atomic_fetch_add(p, 3, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_c11_atomic_fetch_sub_int(_Atomic(int) *p) {<br>
   // CHECK: test_c11_atomic_fetch_sub_int<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 5, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 5, i32 5)<br>
   return __c11_atomic_fetch_sub(p, 5, memory_order_seq_cst);<br>
 }<br>
<br>
 int *fp2a(int **p) {<br>
   // CHECK: @fp2a<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 4, i32 0)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 4, i32 0)<br>
   // Note, the GNU builtins do not multiply by sizeof(T)!<br>
   return __atomic_fetch_sub(p, 4, memory_order_relaxed);<br>
 }<br>
<br>
 int test_atomic_fetch_add(int *p) {<br>
   // CHECK: test_atomic_fetch_add<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_add_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_add_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   return __atomic_fetch_add(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_fetch_sub(int *p) {<br>
   // CHECK: test_atomic_fetch_sub<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   return __atomic_fetch_sub(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_fetch_and(int *p) {<br>
   // CHECK: test_atomic_fetch_and<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_and_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_and_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   return __atomic_fetch_and(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_fetch_or(int *p) {<br>
   // CHECK: test_atomic_fetch_or<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_or_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_or_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   return __atomic_fetch_or(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_fetch_xor(int *p) {<br>
   // CHECK: test_atomic_fetch_xor<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_xor_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_xor_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   return __atomic_fetch_xor(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_fetch_nand(int *p) {<br>
   // CHECK: test_atomic_fetch_nand<br>
-  // CHECK: {{%[^ ]*}} = tail call i32 @__atomic_fetch_nand_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: {{%[^ ]*}} = call i32 @__atomic_fetch_nand_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   return __atomic_fetch_nand(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_add_fetch(int *p) {<br>
   // CHECK: test_atomic_add_fetch<br>
-  // CHECK: [[CALL:%[^ ]*]] = tail call i32 @__atomic_fetch_add_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: [[CALL:%[^ ]*]] = call i32 @__atomic_fetch_add_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   // CHECK: {{%[^ ]*}} = add i32 [[CALL]], 55<br>
   return __atomic_add_fetch(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_sub_fetch(int *p) {<br>
   // CHECK: test_atomic_sub_fetch<br>
-  // CHECK: [[CALL:%[^ ]*]] = tail call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: [[CALL:%[^ ]*]] = call i32 @__atomic_fetch_sub_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   // CHECK: {{%[^ ]*}} = add i32 [[CALL]], -55<br>
   return __atomic_sub_fetch(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_and_fetch(int *p) {<br>
   // CHECK: test_atomic_and_fetch<br>
-  // CHECK: [[CALL:%[^ ]*]] = tail call i32 @__atomic_fetch_and_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: [[CALL:%[^ ]*]] = call i32 @__atomic_fetch_and_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   // CHECK: {{%[^ ]*}} = and i32 [[CALL]], 55<br>
   return __atomic_and_fetch(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_or_fetch(int *p) {<br>
   // CHECK: test_atomic_or_fetch<br>
-  // CHECK: [[CALL:%[^ ]*]] = tail call i32 @__atomic_fetch_or_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: [[CALL:%[^ ]*]] = call i32 @__atomic_fetch_or_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   // CHECK: {{%[^ ]*}} = or i32 [[CALL]], 55<br>
   return __atomic_or_fetch(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_xor_fetch(int *p) {<br>
   // CHECK: test_atomic_xor_fetch<br>
-  // CHECK: [[CALL:%[^ ]*]] = tail call i32 @__atomic_fetch_xor_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: [[CALL:%[^ ]*]] = call i32 @__atomic_fetch_xor_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   // CHECK: {{%[^ ]*}} = xor i32 [[CALL]], 55<br>
   return __atomic_xor_fetch(p, 55, memory_order_seq_cst);<br>
 }<br>
<br>
 int test_atomic_nand_fetch(int *p) {<br>
   // CHECK: test_atomic_nand_fetch<br>
-  // CHECK: [[CALL:%[^ ]*]] = tail call i32 @__atomic_fetch_nand_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
+  // CHECK: [[CALL:%[^ ]*]] = call i32 @__atomic_fetch_nand_4(i8* {{%[0-9]+}}, i32 55, i32 5)<br>
   // FIXME: We should not be checking optimized IR. It changes independently of clang.<br>
   // FIXME-CHECK: [[AND:%[^ ]*]] = and i32 [[CALL]], 55<br>
   // FIXME-CHECK: {{%[^ ]*}} = xor i32 [[AND]], -1<br>
<br>
diff  --git a/clang/test/CodeGenCXX/atomicinit.cpp b/clang/test/CodeGenCXX/atomicinit.cpp<br>
index 85ec74593fe0..657ade588fd5 100644<br>
--- a/clang/test/CodeGenCXX/atomicinit.cpp<br>
+++ b/clang/test/CodeGenCXX/atomicinit.cpp<br>
@@ -31,7 +31,7 @@ _Atomic(B) b;<br>
 // CHECK-LABEL: define void @_Z11atomic_initR1Ai<br>
 void atomic_init(A& a, int i) {<br>
   // CHECK-NOT: atomic<br>
-  // CHECK: tail call void @_ZN1BC1Ei<br>
+  // CHECK: call void @_ZN1BC1Ei<br>
   __c11_atomic_init(&b, B(i));<br>
   // CHECK-NEXT: ret void<br>
 }<br>
<br>
diff  --git a/clang/test/CodeGenCXX/auto-var-init.cpp b/clang/test/CodeGenCXX/auto-var-init.cpp<br>
index a2cb2c8352b6..9cd71bdfd1a7 100644<br>
--- a/clang/test/CodeGenCXX/auto-var-init.cpp<br>
+++ b/clang/test/CodeGenCXX/auto-var-init.cpp<br>
@@ -645,7 +645,7 @@ TEST_UNINIT(smallpartinit, smallpartinit);<br>
 // ZERO-LABEL: @test_smallpartinit_uninit()<br>
 // ZERO-O0: call void @llvm.memset{{.*}}, i8 0,<br>
 // ZERO-O1-LEGACY: store i16 0, i16* %uninit, align 2<br>
-// ZERO-O1-NEWPM: store i16 42, i16* %uninit, align 2<br>
+// ZERO-O1-NEWPM: store i16 0, i16* %uninit, align 2<br>
<br>
 TEST_BRACES(smallpartinit, smallpartinit);<br>
 // CHECK-LABEL: @test_smallpartinit_braces()<br>
@@ -718,7 +718,7 @@ TEST_UNINIT(paddednullinit, paddednullinit);<br>
 // PATTERN-LABEL: @test_paddednullinit_uninit()<br>
 // PATTERN-O0: call void @llvm.memcpy{{.*}} @__const.test_paddednullinit_uninit.uninit<br>
 // PATTERN-O1-LEGACY: store i64 [[I64]], i64* %uninit, align 8<br>
-// PATTERN-O1-NEWPM: store i64 2863311360, i64* %uninit, align 8<br>
+// PATTERN-O1-NEWPM: store i64 [[I64]], i64* %uninit, align 8<br>
 // ZERO-LABEL: @test_paddednullinit_uninit()<br>
 // ZERO-O0: call void @llvm.memset{{.*}}, i8 0,<br>
 // ZERO-O1: store i64 0, i64* %uninit, align 8<br>
@@ -1344,10 +1344,7 @@ TEST_UNINIT(virtualderived, virtualderived);<br>
 // ZERO-LABEL: @test_virtualderived_uninit()<br>
 // ZERO-O0: call void @llvm.memset{{.*}}, i8 0,<br>
 // ZERO-O1-LEGACY: call void @llvm.memset{{.*}}, i8 0,<br>
-// ZERO-O1-NEWPM: [[FIELD1:%.*]] = getelementptr inbounds %struct.virtualderived, %struct.virtualderived* %uninit, i64 0, i32 1, i32 0, i32 0<br>
-// ZERO-O1-NEWPM: [[FIELD0:%.*]] = getelementptr inbounds %struct.virtualderived, %struct.virtualderived* %uninit, i64 0, i32 0, i32 0<br>
-// ZERO-O1-NEWPM: store i32 (...)** bitcast (i8** getelementptr inbounds ({ [7 x i8*], [5 x i8*] }, { [7 x i8*], [5 x i8*] }* @_ZTV14virtualderived, i64 0, inrange i32 0, i64 5) to i32 (...)**), i32 (...)*** [[FIELD0]], align 8<br>
-// ZERO-O1-NEWPM: store i32 (...)** bitcast (i8** getelementptr inbounds ({ [7 x i8*], [5 x i8*] }, { [7 x i8*], [5 x i8*] }* @_ZTV14virtualderived, i64 0, inrange i32 1, i64 3) to i32 (...)**), i32 (...)*** [[FIELD1]], align 8<br>
+// ZERO-O1-NEWPM: call void @llvm.memset{{.*}}, i8 0,<br>
<br>
 TEST_BRACES(virtualderived, virtualderived);<br>
 // CHECK-LABEL: @test_virtualderived_braces()<br>
<br>
diff  --git a/clang/test/CodeGenCXX/discard-name-values.cpp b/clang/test/CodeGenCXX/discard-name-values.cpp<br>
index aa30dae7501b..91328a4ddade 100644<br>
--- a/clang/test/CodeGenCXX/discard-name-values.cpp<br>
+++ b/clang/test/CodeGenCXX/discard-name-values.cpp<br>
@@ -11,11 +11,11 @@ bool test(bool pred) {<br>
<br>
   if (pred) {<br>
     // DISCARDVALUE: 2:<br>
-    // DISCARDVALUE-NEXT: tail call void @branch()<br>
+    // DISCARDVALUE-NEXT: call void @branch()<br>
     // DISCARDVALUE-NEXT: br label %3<br>
<br>
     // CHECK: if.then:<br>
-    // CHECK-NEXT: tail call void @branch()<br>
+    // CHECK-NEXT: call void @branch()<br>
     // CHECK-NEXT: br label %if.end<br>
     branch();<br>
   }<br>
<br>
diff  --git a/clang/test/CodeGenCXX/microsoft-abi-dynamic-cast.cpp b/clang/test/CodeGenCXX/microsoft-abi-dynamic-cast.cpp<br>
index c99df0e88b42..a07114dce7d0 100644<br>
--- a/clang/test/CodeGenCXX/microsoft-abi-dynamic-cast.cpp<br>
+++ b/clang/test/CodeGenCXX/microsoft-abi-dynamic-cast.cpp<br>
@@ -13,7 +13,7 @@ T* test0() { return dynamic_cast<T*>((B*)0); }<br>
 T* test1(V* x) { return &dynamic_cast<T&>(*x); }<br>
 // CHECK-LABEL: define dso_local %struct.T* @"?test1@@YAPAUT@@PAUV@@@Z"(%struct.V* %x)<br>
 // CHECK:        [[CAST:%.*]] = bitcast %struct.V* %x to i8*<br>
-// CHECK-NEXT:   [[CALL:%.*]] = tail call i8* @__RTDynamicCast(i8* [[CAST]], i32 0, i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUV@@@8" to i8*), i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 1)<br>
+// CHECK-NEXT:   [[CALL:%.*]] = call i8* @__RTDynamicCast(i8* [[CAST]], i32 0, i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUV@@@8" to i8*), i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 1)<br>
 // CHECK-NEXT:   [[RET:%.*]] = bitcast i8* [[CALL]] to %struct.T*<br>
 // CHECK-NEXT:   ret %struct.T* [[RET]]<br>
<br>
@@ -25,7 +25,7 @@ T* test2(A* x) { return &dynamic_cast<T&>(*x); }<br>
 // CHECK-NEXT:   [[VBOFFP:%.*]] = getelementptr inbounds i32, i32* [[VBTBL]], i32 1<br>
 // CHECK-NEXT:   [[VBOFFS:%.*]] = load i32, i32* [[VBOFFP]], align 4<br>
 // CHECK-NEXT:   [[ADJ:%.*]] = getelementptr inbounds i8, i8* [[CAST]], i32 [[VBOFFS]]<br>
-// CHECK-NEXT:   [[CALL:%.*]] = tail call i8* @__RTDynamicCast(i8* [[ADJ]], i32 [[VBOFFS]], i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUA@@@8" to i8*), i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 1)<br>
+// CHECK-NEXT:   [[CALL:%.*]] = call i8* @__RTDynamicCast(i8* [[ADJ]], i32 [[VBOFFS]], i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUA@@@8" to i8*), i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 1)<br>
 // CHECK-NEXT:   [[RET:%.*]] = bitcast i8* [[CALL]] to %struct.T*<br>
 // CHECK-NEXT:   ret %struct.T* [[RET]]<br>
<br>
@@ -39,14 +39,14 @@ T* test3(B* x) { return &dynamic_cast<T&>(*x); }<br>
 // CHECK-NEXT:   [[VBOFFS:%.*]] = load i32, i32* [[VBOFFP]], align 4<br>
 // CHECK-NEXT:   [[DELTA:%.*]] = add nsw i32 [[VBOFFS]], 4<br>
 // CHECK-NEXT:   [[ADJ:%.*]] = getelementptr inbounds i8, i8* [[VOIDP]], i32 [[DELTA]]<br>
-// CHECK-NEXT:   [[CALL:%.*]] = tail call i8* @__RTDynamicCast(i8* [[ADJ]], i32 [[DELTA]], i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUB@@@8" to i8*), i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 1)<br>
+// CHECK-NEXT:   [[CALL:%.*]] = call i8* @__RTDynamicCast(i8* [[ADJ]], i32 [[DELTA]], i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUB@@@8" to i8*), i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 1)<br>
 // CHECK-NEXT:   [[RET:%.*]] = bitcast i8* [[CALL]] to %struct.T*<br>
 // CHECK-NEXT:   ret %struct.T* [[RET]]<br>
<br>
 T* test4(V* x) { return dynamic_cast<T*>(x); }<br>
 // CHECK-LABEL: define dso_local %struct.T* @"?test4@@YAPAUT@@PAUV@@@Z"(%struct.V* %x)<br>
 // CHECK:        [[CAST:%.*]] = bitcast %struct.V* %x to i8*<br>
-// CHECK-NEXT:   [[CALL:%.*]] = tail call i8* @__RTDynamicCast(i8* [[CAST]], i32 0, i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUV@@@8" to i8*), i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 0)<br>
+// CHECK-NEXT:   [[CALL:%.*]] = call i8* @__RTDynamicCast(i8* [[CAST]], i32 0, i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUV@@@8" to i8*), i8* bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 0)<br>
 // CHECK-NEXT:   [[RET:%.*]] = bitcast i8* [[CALL]] to %struct.T*<br>
 // CHECK-NEXT:   ret %struct.T* [[RET]]<br>
<br>
@@ -60,7 +60,7 @@ T* test5(A* x) { return dynamic_cast<T*>(x); }<br>
 // CHECK-NEXT:   [[VBOFFP:%.*]] = getelementptr inbounds i32, i32* [[VBTBL]], i32 1<br>
 // CHECK-NEXT:   [[VBOFFS:%.*]] = load i32, i32* [[VBOFFP]], align 4<br>
 // CHECK-NEXT:   [[ADJ:%.*]] = getelementptr inbounds i8, i8* [[VOIDP]], i32 [[VBOFFS]]<br>
-// CHECK-NEXT:   [[CALL:%.*]] = tail call i8* @__RTDynamicCast(i8* nonnull [[ADJ]], i32 [[VBOFFS]], i8* {{.*}}bitcast (%rtti.TypeDescriptor7* @"??_R0?AUA@@@8" to i8*), i8* {{.*}}bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 0)<br>
+// CHECK-NEXT:   [[CALL:%.*]] = call i8* @__RTDynamicCast(i8* nonnull [[ADJ]], i32 [[VBOFFS]], i8* {{.*}}bitcast (%rtti.TypeDescriptor7* @"??_R0?AUA@@@8" to i8*), i8* {{.*}}bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 0)<br>
 // CHECK-NEXT:   [[RES:%.*]] = bitcast i8* [[CALL]] to %struct.T*<br>
 // CHECK-NEXT:   br label<br>
 // CHECK:        [[RET:%.*]] = phi %struct.T*<br>
@@ -78,7 +78,7 @@ T* test6(B* x) { return dynamic_cast<T*>(x); }<br>
 // CHECK-NEXT:   [[VBOFFS:%.*]] = load i32, i32* [[VBOFFP]], align 4<br>
 // CHECK-NEXT:   [[DELTA:%.*]] = add nsw i32 [[VBOFFS]], 4<br>
 // CHECK-NEXT:   [[ADJ:%.*]] = getelementptr inbounds i8, i8* [[CAST]], i32 [[DELTA]]<br>
-// CHECK-NEXT:   [[CALL:%.*]] = tail call i8* @__RTDynamicCast(i8* [[ADJ]], i32 [[DELTA]], i8* {{.*}}bitcast (%rtti.TypeDescriptor7* @"??_R0?AUB@@@8" to i8*), i8* {{.*}}bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 0)<br>
+// CHECK-NEXT:   [[CALL:%.*]] = call i8* @__RTDynamicCast(i8* [[ADJ]], i32 [[DELTA]], i8* {{.*}}bitcast (%rtti.TypeDescriptor7* @"??_R0?AUB@@@8" to i8*), i8* {{.*}}bitcast (%rtti.TypeDescriptor7* @"??_R0?AUT@@@8" to i8*), i32 0)<br>
 // CHECK-NEXT:   [[RES:%.*]] = bitcast i8* [[CALL]] to %struct.T*<br>
 // CHECK-NEXT:   br label<br>
 // CHECK:        [[RET:%.*]] = phi %struct.T*<br>
@@ -87,7 +87,7 @@ T* test6(B* x) { return dynamic_cast<T*>(x); }<br>
 void* test7(V* x) { return dynamic_cast<void*>(x); }<br>
 // CHECK-LABEL: define dso_local i8* @"?test7@@YAPAXPAUV@@@Z"(%struct.V* %x)<br>
 // CHECK:        [[CAST:%.*]] = bitcast %struct.V* %x to i8*<br>
-// CHECK-NEXT:   [[RET:%.*]] = tail call i8* @__RTCastToVoid(i8* [[CAST]])<br>
+// CHECK-NEXT:   [[RET:%.*]] = call i8* @__RTCastToVoid(i8* [[CAST]])<br>
 // CHECK-NEXT:   ret i8* [[RET]]<br>
<br>
 void* test8(A* x) { return dynamic_cast<void*>(x); }<br>
@@ -100,7 +100,7 @@ void* test8(A* x) { return dynamic_cast<void*>(x); }<br>
 // CHECK-NEXT:   [[VBOFFP:%.*]] = getelementptr inbounds i32, i32* [[VBTBL]], i32 1<br>
 // CHECK-NEXT:   [[VBOFFS:%.*]] = load i32, i32* [[VBOFFP]], align 4<br>
 // CHECK-NEXT:   [[ADJ:%.*]] = getelementptr inbounds i8, i8* [[VOIDP]], i32 [[VBOFFS]]<br>
-// CHECK-NEXT:   [[RES:%.*]] = tail call i8* @__RTCastToVoid(i8* nonnull [[ADJ]])<br>
+// CHECK-NEXT:   [[RES:%.*]] = call i8* @__RTCastToVoid(i8* nonnull [[ADJ]])<br>
 // CHECK-NEXT:   br label<br>
 // CHECK:        [[RET:%.*]] = phi i8*<br>
 // CHECK-NEXT:   ret i8* [[RET]]<br>
@@ -117,7 +117,7 @@ void* test9(B* x) { return dynamic_cast<void*>(x); }<br>
 // CHECK-NEXT:   [[VBOFFS:%.*]] = load i32, i32* [[VBOFFP]], align 4<br>
 // CHECK-NEXT:   [[DELTA:%.*]] = add nsw i32 [[VBOFFS]], 4<br>
 // CHECK-NEXT:   [[ADJ:%.*]] = getelementptr inbounds i8, i8* [[CAST]], i32 [[DELTA]]<br>
-// CHECK-NEXT:   [[CALL:%.*]] = tail call i8* @__RTCastToVoid(i8* [[ADJ]])<br>
+// CHECK-NEXT:   [[CALL:%.*]] = call i8* @__RTCastToVoid(i8* [[ADJ]])<br>
 // CHECK-NEXT:   br label<br>
 // CHECK:        [[RET:%.*]] = phi i8*<br>
 // CHECK-NEXT:   ret i8* [[RET]]<br>
<br>
diff  --git a/clang/test/CodeGenCXX/microsoft-abi-typeid.cpp b/clang/test/CodeGenCXX/microsoft-abi-typeid.cpp<br>
index 848e280cd9fe..f3bd7e6fd6c8 100644<br>
--- a/clang/test/CodeGenCXX/microsoft-abi-typeid.cpp<br>
+++ b/clang/test/CodeGenCXX/microsoft-abi-typeid.cpp<br>
@@ -25,10 +25,10 @@ const std::type_info* test2_typeid() { return &typeid(&a); }<br>
<br>
 const std::type_info* test3_typeid() { return &typeid(*fn()); }<br>
 // CHECK-LABEL: define dso_local %struct.type_info* @"?test3_typeid@@YAPBUtype_info@@XZ"()<br>
-// CHECK:        [[CALL:%.*]] = tail call %struct.A* @"?fn@@YAPAUA@@XZ"()<br>
+// CHECK:        [[CALL:%.*]] = call %struct.A* @"?fn@@YAPAUA@@XZ"()<br>
 // CHECK-NEXT:   [[CMP:%.*]] = icmp eq %struct.A* [[CALL]], null<br>
 // CHECK-NEXT:   br i1 [[CMP]]<br>
-// CHECK:        tail call i8* @__RTtypeid(i8* null)<br>
+// CHECK:        call i8* @__RTtypeid(i8* null)<br>
 // CHECK-NEXT:   unreachable<br>
 // CHECK:        [[THIS:%.*]] = bitcast %struct.A* [[CALL]] to i8*<br>
 // CHECK-NEXT:   [[VBTBLP:%.*]] = getelementptr %struct.A, %struct.A* [[CALL]], i32 0, i32 0<br>
@@ -36,7 +36,7 @@ const std::type_info* test3_typeid() { return &typeid(*fn()); }<br>
 // CHECK-NEXT:   [[VBSLOT:%.*]] = getelementptr inbounds i32, i32* [[VBTBL]], i32 1<br>
 // CHECK-NEXT:   [[VBASE_OFFS:%.*]] = load i32, i32* [[VBSLOT]], align 4<br>
 // CHECK-NEXT:   [[ADJ:%.*]] = getelementptr inbounds i8, i8* [[THIS]], i32 [[VBASE_OFFS]]<br>
-// CHECK-NEXT:   [[RT:%.*]] = tail call i8* @__RTtypeid(i8* nonnull [[ADJ]])<br>
+// CHECK-NEXT:   [[RT:%.*]] = call i8* @__RTtypeid(i8* nonnull [[ADJ]])<br>
 // CHECK-NEXT:   [[RET:%.*]] = bitcast i8* [[RT]] to %struct.type_info*<br>
 // CHECK-NEXT:   ret %struct.type_info* [[RET]]<br>
<br>
@@ -46,7 +46,7 @@ const std::type_info* test4_typeid() { return &typeid(b); }<br>
<br>
 const std::type_info* test5_typeid() { return &typeid(v); }<br>
 // CHECK: define dso_local %struct.type_info* @"?test5_typeid@@YAPBUtype_info@@XZ"()<br>
-// CHECK:        [[RT:%.*]] = tail call i8* @__RTtypeid(i8* bitcast (%struct.V* @"?v@@3UV@@A" to i8*))<br>
+// CHECK:        [[RT:%.*]] = call i8* @__RTtypeid(i8* bitcast (%struct.V* @"?v@@3UV@@A" to i8*))<br>
 // CHECK-NEXT:   [[RET:%.*]] = bitcast i8* [[RT]] to %struct.type_info*<br>
 // CHECK-NEXT:   ret %struct.type_info* [[RET]]<br>
<br>
<br>
diff  --git a/clang/test/CodeGenCXX/nrvo.cpp b/clang/test/CodeGenCXX/nrvo.cpp<br>
index aab26890ea98..74a5af765d13 100644<br>
--- a/clang/test/CodeGenCXX/nrvo.cpp<br>
+++ b/clang/test/CodeGenCXX/nrvo.cpp<br>
@@ -33,13 +33,13 @@ X test0() {<br>
 // CHECK-LABEL: define void @_Z5test1b(<br>
 // CHECK-EH-LABEL: define void @_Z5test1b(<br>
 X test1(bool B) {<br>
-  // CHECK:      tail call {{.*}} @_ZN1XC1Ev<br>
+  // CHECK:      call {{.*}} @_ZN1XC1Ev<br>
   // CHECK-NEXT: ret void<br>
   X x;<br>
   if (B)<br>
     return (x);<br>
   return x;<br>
-  // CHECK-EH:      tail call {{.*}} @_ZN1XC1Ev<br>
+  // CHECK-EH:      call {{.*}} @_ZN1XC1Ev<br>
   // CHECK-EH-NEXT: ret void<br>
 }<br>
<br>
@@ -130,7 +130,7 @@ X test2(bool B) {<br>
<br>
 // CHECK-LABEL: define void @_Z5test3b<br>
 X test3(bool B) {<br>
-  // CHECK: tail call {{.*}} @_ZN1XC1Ev<br>
+  // CHECK: call {{.*}} @_ZN1XC1Ev<br>
   // CHECK-NOT: call {{.*}} @_ZN1XC1ERKS_<br>
   // CHECK: call {{.*}} @_ZN1XC1Ev<br>
   // CHECK: call {{.*}} @_ZN1XC1ERKS_<br>
@@ -148,14 +148,14 @@ extern "C" void exit(int) throw();<br>
 // CHECK-LABEL: define void @_Z5test4b<br>
 X test4(bool B) {<br>
   {<br>
-    // CHECK: tail call {{.*}} @_ZN1XC1Ev<br>
+    // CHECK: call {{.*}} @_ZN1XC1Ev<br>
     X x;<br>
     // CHECK: br i1<br>
     if (B)<br>
       return x;<br>
   }<br>
-  // CHECK: tail call {{.*}} @_ZN1XD1Ev<br>
-  // CHECK: tail call void @exit(i32 1)<br>
+  // CHECK: call {{.*}} @_ZN1XD1Ev<br>
+  // CHECK: call void @exit(i32 1)<br>
   exit(1);<br>
 }<br>
<br>
@@ -191,7 +191,7 @@ X test6() {<br>
<br>
 // CHECK-LABEL: define void @_Z5test7b<br>
 X test7(bool b) {<br>
-  // CHECK: tail call {{.*}} @_ZN1XC1Ev<br>
+  // CHECK: call {{.*}} @_ZN1XC1Ev<br>
   // CHECK-NEXT: ret<br>
   if (b) {<br>
     X x;<br>
@@ -202,7 +202,7 @@ X test7(bool b) {<br>
<br>
 // CHECK-LABEL: define void @_Z5test8b<br>
 X test8(bool b) {<br>
-  // CHECK: tail call {{.*}} @_ZN1XC1Ev<br>
+  // CHECK: call {{.*}} @_ZN1XC1Ev<br>
   // CHECK-NEXT: ret<br>
   if (b) {<br>
     X x;<br>
@@ -218,6 +218,6 @@ Y<int> test9() {<br>
 }<br>
<br>
 // CHECK-LABEL: define linkonce_odr void @_ZN1YIiE1fEv<br>
-// CHECK: tail call {{.*}} @_ZN1YIiEC1Ev<br>
+// CHECK: call {{.*}} @_ZN1YIiEC1Ev<br>
<br>
 // CHECK-EH-03: attributes [[NR_NUW]] = { noreturn nounwind }<br>
<br>
diff  --git a/clang/test/CodeGenCXX/stack-reuse.cpp b/clang/test/CodeGenCXX/stack-reuse.cpp<br>
index 8325604391ae..35dcb5b349c3 100644<br>
--- a/clang/test/CodeGenCXX/stack-reuse.cpp<br>
+++ b/clang/test/CodeGenCXX/stack-reuse.cpp<br>
@@ -1,4 +1,4 @@<br>
-// RUN: %clang_cc1 -triple armv7-unknown-linux-gnueabihf %s -o - -emit-llvm -O1 | FileCheck %s<br>
+// RUN: %clang_cc1 -triple armv7-unknown-linux-gnueabihf %s -o - -emit-llvm -O2 | FileCheck %s<br>
<br>
 // Stack should be reused when possible, no need to allocate two separate slots<br>
 // if they have disjoint lifetime.<br>
<br>
diff  --git a/clang/test/CodeGenCXX/wasm-args-returns.cpp b/clang/test/CodeGenCXX/wasm-args-returns.cpp<br>
index 5718223f9f74..c547eb85390d 100644<br>
--- a/clang/test/CodeGenCXX/wasm-args-returns.cpp<br>
+++ b/clang/test/CodeGenCXX/wasm-args-returns.cpp<br>
@@ -19,8 +19,8 @@ test(one_field);<br>
 // CHECK: define double @_Z7forward9one_field(double returned %{{.*}})<br>
 //<br>
 // CHECK: define void @_Z14test_one_fieldv()<br>
-// CHECK: %[[call:.*]] = tail call double @_Z13def_one_fieldv()<br>
-// CHECK: tail call void @_Z3use9one_field(double %[[call]])<br>
+// CHECK: %[[call:.*]] = call double @_Z13def_one_fieldv()<br>
+// CHECK: call void @_Z3use9one_field(double %[[call]])<br>
 // CHECK: ret void<br>
 //<br>
 // CHECK: declare void @_Z3use9one_field(double)<br>
@@ -82,8 +82,8 @@ test(empty);<br>
 // CHECK: define void @_Z7forward5empty()<br>
 //<br>
 // CHECK: define void @_Z10test_emptyv()<br>
-// CHECK: tail call void @_Z9def_emptyv()<br>
-// CHECK: tail call void @_Z3use5empty()<br>
+// CHECK: call void @_Z9def_emptyv()<br>
+// CHECK: call void @_Z3use5empty()<br>
 // CHECK: ret void<br>
 //<br>
 // CHECK: declare void @_Z3use5empty()<br>
@@ -96,8 +96,8 @@ test(one_bitfield);<br>
 // CHECK: define i32 @_Z7forward12one_bitfield(i32 returned %{{.*}})<br>
 //<br>
 // CHECK: define void @_Z17test_one_bitfieldv()<br>
-// CHECK: %[[call:.*]] = tail call i32 @_Z16def_one_bitfieldv()<br>
-// CHECK: tail call void @_Z3use12one_bitfield(i32 %[[call]])<br>
+// CHECK: %[[call:.*]] = call i32 @_Z16def_one_bitfieldv()<br>
+// CHECK: call void @_Z3use12one_bitfield(i32 %[[call]])<br>
 // CHECK: ret void<br>
 //<br>
 // CHECK: declare void @_Z3use12one_bitfield(i32)<br>
<br>
diff  --git a/clang/test/CodeGenObjCXX/<a href="http://arc-blocks.mm" rel="noreferrer noreferrer" target="_blank">arc-blocks.mm</a> b/clang/test/CodeGenObjCXX/<a href="http://arc-blocks.mm" rel="noreferrer noreferrer" target="_blank">arc-blocks.mm</a><br>
index 24697cf1bd37..d29491ed077e 100644<br>
--- a/clang/test/CodeGenObjCXX/<a href="http://arc-blocks.mm" rel="noreferrer noreferrer" target="_blank">arc-blocks.mm</a><br>
+++ b/clang/test/CodeGenObjCXX/<a href="http://arc-blocks.mm" rel="noreferrer noreferrer" target="_blank">arc-blocks.mm</a><br>
@@ -122,7 +122,7 @@ void foo() {<br>
 // CHECK: call void @__clang_call_terminate(<br>
<br>
 // CHECK-O1-LABEL: define linkonce_odr hidden void @__copy_helper_block_ea8_32s40r48w56c15_ZTSN5test12S0E60c15_ZTSN5test12S0E(<br>
-// CHECK-O1: tail call void @llvm.objc.release({{.*}}) {{.*}} !clang.imprecise_release<br>
+// CHECK-O1: call void @llvm.objc.release({{.*}}) {{.*}} !clang.imprecise_release<br>
 // CHECK-NOEXCP: define linkonce_odr hidden void @__copy_helper_block_8_32s40r48w56c15_ZTSN5test12S0E60c15_ZTSN5test12S0E(<br>
<br>
 // CHECK: define linkonce_odr hidden void @__destroy_helper_block_ea8_32s40r48w56c15_ZTSN5test12S0E60c15_ZTSN5test12S0E(<br>
@@ -170,8 +170,8 @@ void foo() {<br>
 // CHECK: call void @__clang_call_terminate(<br>
<br>
 // CHECK-O1-LABEL: define linkonce_odr hidden void @__destroy_helper_block_ea8_32s40r48w56c15_ZTSN5test12S0E60c15_ZTSN5test12S0E(<br>
-// CHECK-O1: tail call void @llvm.objc.release({{.*}}) {{.*}} !clang.imprecise_release<br>
-// CHECK-O1: tail call void @llvm.objc.release({{.*}}) {{.*}} !clang.imprecise_release<br>
+// CHECK-O1: call void @llvm.objc.release({{.*}}) {{.*}} !clang.imprecise_release<br>
+// CHECK-O1: call void @llvm.objc.release({{.*}}) {{.*}} !clang.imprecise_release<br>
 // CHECK-NOEXCP: define linkonce_odr hidden void @__destroy_helper_block_8_32s40r48w56c15_ZTSN5test12S0E60c15_ZTSN5test12S0E(<br>
<br>
 namespace {<br>
<br>
diff  --git a/clang/test/CodeGenObjCXX/<a href="http://nrvo.mm" rel="noreferrer noreferrer" target="_blank">nrvo.mm</a> b/clang/test/CodeGenObjCXX/<a href="http://nrvo.mm" rel="noreferrer noreferrer" target="_blank">nrvo.mm</a><br>
index 1ad5f79ad12e..a02b38b820a3 100644<br>
--- a/clang/test/CodeGenObjCXX/<a href="http://nrvo.mm" rel="noreferrer noreferrer" target="_blank">nrvo.mm</a><br>
+++ b/clang/test/CodeGenObjCXX/<a href="http://nrvo.mm" rel="noreferrer noreferrer" target="_blank">nrvo.mm</a><br>
@@ -14,7 +14,7 @@ @implementation NRVO<br>
 // CHECK: define internal void @"\01-[NRVO getNRVO]"<br>
 - (X)getNRVO { <br>
   X x;<br>
-  // CHECK: tail call void @_ZN1XC1Ev<br>
+  // CHECK: call void @_ZN1XC1Ev<br>
   // CHECK-NEXT: ret void<br>
   return x;<br>
 }<br>
@@ -24,7 +24,7 @@ X blocksNRVO() {<br>
   return ^{<br>
     // CHECK-LABEL: define internal void @___Z10blocksNRVOv_block_invoke<br>
     X x;<br>
-    // CHECK: tail call void @_ZN1XC1Ev<br>
+    // CHECK: call void @_ZN1XC1Ev<br>
     // CHECK-NEXT: ret void<br>
     return x;<br>
   }() ;<br>
<br>
diff  --git a/clang/test/Lexer/minimize_source_to_dependency_directives_invalid_error.c b/clang/test/Lexer/minimize_source_to_dependency_directives_invalid_error.c<br>
index c4a4cf3d9752..020912a4965d 100644<br>
--- a/clang/test/Lexer/minimize_source_to_dependency_directives_invalid_error.c<br>
+++ b/clang/test/Lexer/minimize_source_to_dependency_directives_invalid_error.c<br>
@@ -1,16 +1,16 @@<br>
-// Test CF+LF are properly handled along with quoted, multi-line #error<br>
-// RUN: %clang_cc1 -DOTHER -print-dependency-directives-minimized-source %s 2>&1 | FileCheck %s<br>
-<br>
-#ifndef TEST<br>
-#error "message \<br>
-   more message \<br>
-   even more"<br>
-#endif<br>
-<br>
-#ifdef OTHER<br>
-#include <string><br>
-#endif<br>
-<br>
-// CHECK:      #ifdef OTHER<br>
-// CHECK-NEXT: #include <string><br>
-// CHECK-NEXT: #endif<br>
+// Test CF+LF are properly handled along with quoted, multi-line #error<br>
+// RUN: %clang_cc1 -DOTHER -print-dependency-directives-minimized-source %s 2>&1 | FileCheck %s<br>
+<br>
+#ifndef TEST<br>
+#error "message \<br>
+   more message \<br>
+   even more"<br>
+#endif<br>
+<br>
+#ifdef OTHER<br>
+#include <string><br>
+#endif<br>
+<br>
+// CHECK:      #ifdef OTHER<br>
+// CHECK-NEXT: #include <string><br>
+// CHECK-NEXT: #endif<br>
<br>
diff  --git a/clang/test/PCH/no-escaping-block-tail-calls.cpp b/clang/test/PCH/no-escaping-block-tail-calls.cpp<br>
index 5ae8108f387d..bf197267d67d 100644<br>
--- a/clang/test/PCH/no-escaping-block-tail-calls.cpp<br>
+++ b/clang/test/PCH/no-escaping-block-tail-calls.cpp<br>
@@ -1,5 +1,5 @@<br>
-// RUN: %clang_cc1 -x c++-header -triple x86_64-apple-darwin11 -emit-pch -O1 -fblocks -fno-escaping-block-tail-calls -o %t %S/no-escaping-block-tail-calls.h<br>
-// RUN: %clang_cc1 -triple x86_64-apple-darwin11 -include-pch %t -emit-llvm -O1 -fblocks -fno-escaping-block-tail-calls -o - %s | FileCheck %s<br>
+// RUN: %clang_cc1 -x c++-header -triple x86_64-apple-darwin11 -emit-pch -O2 -fblocks -fno-escaping-block-tail-calls -o %t %S/no-escaping-block-tail-calls.h<br>
+// RUN: %clang_cc1 -triple x86_64-apple-darwin11 -include-pch %t -emit-llvm -O2 -fblocks -fno-escaping-block-tail-calls -o - %s | FileCheck %s<br>
<br>
 // Check that -fno-escaping-block-tail-calls doesn't disable tail-call<br>
 // optimization if the block is non-escaping.<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq1/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq1/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq1/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq1/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq2/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq2/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq2/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/ambiguous_tail_call_seq2/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_call_site/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_call_site/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_call_site/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_call_site/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_paths_to_common_sink/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_paths_to_common_sink/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_paths_to_common_sink/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_paths_to_common_sink/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_tail_call_seq/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_tail_call_seq/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_tail_call_seq/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/disambiguate_tail_call_seq/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/inlining_and_tail_calls/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/inlining_and_tail_calls/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/inlining_and_tail_calls/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/inlining_and_tail_calls/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/sbapi_support/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/sbapi_support/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/sbapi_support/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/sbapi_support/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_message/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_message/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_message/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_message/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_or_return/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_or_return/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_or_return/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/thread_step_out_or_return/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/unambiguous_sequence/Makefile b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/unambiguous_sequence/Makefile<br>
index 48342e8e3afb..666a6c365546 100644<br>
--- a/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/unambiguous_sequence/Makefile<br>
+++ b/lldb/packages/Python/lldbsuite/test/functionalities/tail_call_frames/unambiguous_sequence/Makefile<br>
@@ -1,4 +1,4 @@<br>
 CXX_SOURCES := main.cpp<br>
<br>
-CXXFLAGS_EXTRAS := -g -O1 -glldb<br>
+CXXFLAGS_EXTRAS := -g -O2 -glldb<br>
 include Makefile.rules<br>
<br>
diff  --git a/llvm/include/llvm/Passes/PassBuilder.h b/llvm/include/llvm/Passes/PassBuilder.h<br>
index f73e4b42dd4b..7fe03f72305b 100644<br>
--- a/llvm/include/llvm/Passes/PassBuilder.h<br>
+++ b/llvm/include/llvm/Passes/PassBuilder.h<br>
@@ -151,10 +151,6 @@ class PassBuilder {<br>
<br>
     /// Optimize quickly without destroying debuggability.<br>
     ///<br>
-    /// FIXME: The current and historical behavior of this level does *not*<br>
-    /// agree with this goal, but we would like to move toward this goal in the<br>
-    /// future.<br>
-    ///<br>
     /// This level is tuned to produce a result from the optimizer as quickly<br>
     /// as possible and to avoid destroying debuggability. This tends to result<br>
     /// in a very good development mode where the compiled code will be<br>
@@ -164,9 +160,9 @@ class PassBuilder {<br>
     /// debugging of the resulting binary.<br>
     ///<br>
     /// As an example, complex loop transformations such as versioning,<br>
-    /// vectorization, or fusion might not make sense here due to the degree to<br>
-    /// which the executed code would <br>
diff er from the source code, and the<br>
-    /// potential compile time cost.<br>
+    /// vectorization, or fusion don't make sense here due to the degree to<br>
+    /// which the executed code <br>
diff ers from the source code, and the compile time<br>
+    /// cost.<br>
     O1,<br>
<br>
     /// Optimize for fast execution as much as possible without triggering<br>
<br>
diff  --git a/llvm/lib/Passes/PassBuilder.cpp b/llvm/lib/Passes/PassBuilder.cpp<br>
index 5896dbf5bb98..b22921b2b878 100644<br>
--- a/llvm/lib/Passes/PassBuilder.cpp<br>
+++ b/llvm/lib/Passes/PassBuilder.cpp<br>
@@ -400,21 +400,25 @@ PassBuilder::buildFunctionSimplificationPipeline(OptimizationLevel Level,<br>
   FPM.addPass(EarlyCSEPass(true /* Enable mem-ssa. */));<br>
<br>
   // Hoisting of scalars and load expressions.<br>
-  if (EnableGVNHoist)<br>
-    FPM.addPass(GVNHoistPass());<br>
-<br>
-  // Global value numbering based sinking.<br>
-  if (EnableGVNSink) {<br>
-    FPM.addPass(GVNSinkPass());<br>
-    FPM.addPass(SimplifyCFGPass());<br>
+  if (Level > O1) {<br>
+    if (EnableGVNHoist)<br>
+      FPM.addPass(GVNHoistPass());<br>
+<br>
+    // Global value numbering based sinking.<br>
+    if (EnableGVNSink) {<br>
+      FPM.addPass(GVNSinkPass());<br>
+      FPM.addPass(SimplifyCFGPass());<br>
+    }<br>
   }<br>
<br>
   // Speculative execution if the target has divergent branches; otherwise nop.<br>
-  FPM.addPass(SpeculativeExecutionPass());<br>
+  if (Level > O1) {<br>
+    FPM.addPass(SpeculativeExecutionPass());<br>
<br>
-  // Optimize based on known information about branches, and cleanup afterward.<br>
-  FPM.addPass(JumpThreadingPass());<br>
-  FPM.addPass(CorrelatedValuePropagationPass());<br>
+    // Optimize based on known information about branches, and cleanup afterward.<br>
+    FPM.addPass(JumpThreadingPass());<br>
+    FPM.addPass(CorrelatedValuePropagationPass());<br>
+  }<br>
   FPM.addPass(SimplifyCFGPass());<br>
   if (Level == O3)<br>
     FPM.addPass(AggressiveInstCombinePass());<br>
@@ -428,10 +432,12 @@ PassBuilder::buildFunctionSimplificationPipeline(OptimizationLevel Level,<br>
   // For PGO use pipeline, try to optimize memory intrinsics such as memcpy<br>
   // using the size value profile. Don't perform this when optimizing for size.<br>
   if (PGOOpt && PGOOpt->Action == PGOOptions::IRUse &&<br>
-      !isOptimizingForSize(Level))<br>
+      !isOptimizingForSize(Level) && Level > O1)<br>
     FPM.addPass(PGOMemOPSizeOpt());<br>
<br>
-  FPM.addPass(TailCallElimPass());<br>
+  // TODO: Investigate the cost/benefit of tail call elimination on debugging.<br>
+  if (Level > O1)<br>
+    FPM.addPass(TailCallElimPass());<br>
   FPM.addPass(SimplifyCFGPass());<br>
<br>
   // Form canonically associated expression trees, and simplify the trees using<br>
@@ -458,6 +464,7 @@ PassBuilder::buildFunctionSimplificationPipeline(OptimizationLevel Level,<br>
<br>
   // Rotate Loop - disable header duplication at -Oz<br>
   LPM1.addPass(LoopRotatePass(Level != Oz));<br>
+  // TODO: Investigate promotion cap for O1.<br>
   LPM1.addPass(LICMPass(PTO.LicmMssaOptCap, PTO.LicmMssaNoAccForPromotionCap));<br>
   LPM1.addPass(SimpleLoopUnswitchPass());<br>
   LPM2.addPass(IndVarSimplifyPass());<br>
@@ -525,18 +532,21 @@ PassBuilder::buildFunctionSimplificationPipeline(OptimizationLevel Level,<br>
<br>
   // Re-consider control flow based optimizations after redundancy elimination,<br>
   // redo DCE, etc.<br>
-  FPM.addPass(JumpThreadingPass());<br>
-  FPM.addPass(CorrelatedValuePropagationPass());<br>
-  FPM.addPass(DSEPass());<br>
-  FPM.addPass(createFunctionToLoopPassAdaptor(<br>
-      LICMPass(PTO.LicmMssaOptCap, PTO.LicmMssaNoAccForPromotionCap),<br>
-      EnableMSSALoopDependency, DebugLogging));<br>
+  if (Level > O1) {<br>
+    FPM.addPass(JumpThreadingPass());<br>
+    FPM.addPass(CorrelatedValuePropagationPass());<br>
+    FPM.addPass(DSEPass());<br>
+    FPM.addPass(createFunctionToLoopPassAdaptor(<br>
+        LICMPass(PTO.LicmMssaOptCap, PTO.LicmMssaNoAccForPromotionCap),<br>
+        EnableMSSALoopDependency, DebugLogging));<br>
+  }<br>
<br>
   for (auto &C : ScalarOptimizerLateEPCallbacks)<br>
     C(FPM, Level);<br>
<br>
   // Finally, do an expensive DCE pass to catch all the dead code exposed by<br>
   // the simplifications and basic cleanup after all the simplifications.<br>
+  // TODO: Investigate if this is too expensive.<br>
   FPM.addPass(ADCEPass());<br>
   FPM.addPass(SimplifyCFGPass());<br>
   FPM.addPass(InstCombinePass());<br>
<br>
diff  --git a/llvm/lib/Transforms/IPO/PassManagerBuilder.cpp b/llvm/lib/Transforms/IPO/PassManagerBuilder.cpp<br>
index 5314a8219b1e..81424229c3bf 100644<br>
--- a/llvm/lib/Transforms/IPO/PassManagerBuilder.cpp<br>
+++ b/llvm/lib/Transforms/IPO/PassManagerBuilder.cpp<br>
@@ -320,19 +320,26 @@ void PassManagerBuilder::addFunctionSimplificationPasses(<br>
     legacy::PassManagerBase &MPM) {<br>
   // Start of function pass.<br>
   // Break up aggregate allocas, using SSAUpdater.<br>
+  assert(OptLevel >= 1 && "Calling function optimizer with no optimization level!");<br>
   MPM.add(createSROAPass());<br>
   MPM.add(createEarlyCSEPass(true /* Enable mem-ssa. */)); // Catch trivial redundancies<br>
-  if (EnableGVNHoist)<br>
-    MPM.add(createGVNHoistPass());<br>
-  if (EnableGVNSink) {<br>
-    MPM.add(createGVNSinkPass());<br>
-    MPM.add(createCFGSimplificationPass());<br>
+<br>
+  if (OptLevel > 1) {<br>
+    if (EnableGVNHoist)<br>
+      MPM.add(createGVNHoistPass());<br>
+    if (EnableGVNSink) {<br>
+      MPM.add(createGVNSinkPass());<br>
+      MPM.add(createCFGSimplificationPass());<br>
+    }<br>
   }<br>
<br>
-  // Speculative execution if the target has divergent branches; otherwise nop.<br>
-  MPM.add(createSpeculativeExecutionIfHasBranchDivergencePass());<br>
-  MPM.add(createJumpThreadingPass());         // Thread jumps.<br>
-  MPM.add(createCorrelatedValuePropagationPass()); // Propagate conditionals<br>
+  if (OptLevel > 1) {<br>
+    // Speculative execution if the target has divergent branches; otherwise nop.<br>
+    MPM.add(createSpeculativeExecutionIfHasBranchDivergencePass());<br>
+<br>
+    MPM.add(createJumpThreadingPass());         // Thread jumps.<br>
+    MPM.add(createCorrelatedValuePropagationPass()); // Propagate conditionals<br>
+  }<br>
   MPM.add(createCFGSimplificationPass());     // Merge & remove BBs<br>
   // Combine silly seq's<br>
   if (OptLevel > 2)<br>
@@ -346,8 +353,10 @@ void PassManagerBuilder::addFunctionSimplificationPasses(<br>
   if (SizeLevel == 0)<br>
     MPM.add(createPGOMemOPSizeOptLegacyPass());<br>
<br>
-  MPM.add(createTailCallEliminationPass()); // Eliminate tail calls<br>
-  MPM.add(createCFGSimplificationPass());     // Merge & remove BBs<br>
+  // TODO: Investigate the cost/benefit of tail call elimination on debugging.<br>
+  if (OptLevel > 1)<br>
+    MPM.add(createTailCallEliminationPass()); // Eliminate tail calls<br>
+  MPM.add(createCFGSimplificationPass());      // Merge & remove BBs<br>
   MPM.add(createReassociatePass());           // Reassociate expressions<br>
<br>
   // Begin the loop pass pipeline.<br>
@@ -360,6 +369,7 @@ void PassManagerBuilder::addFunctionSimplificationPasses(<br>
   }<br>
   // Rotate Loop - disable header duplication at -Oz<br>
   MPM.add(createLoopRotatePass(SizeLevel == 2 ? 0 : -1));<br>
+  // TODO: Investigate promotion cap for O1.<br>
   MPM.add(createLICMPass(LicmMssaOptCap, LicmMssaNoAccForPromotionCap));<br>
   if (EnableSimpleLoopUnswitch)<br>
     MPM.add(createSimpleLoopUnswitchLegacyPass());<br>
@@ -402,16 +412,19 @@ void PassManagerBuilder::addFunctionSimplificationPasses(<br>
   // opened up by them.<br>
   addInstructionCombiningPass(MPM);<br>
   addExtensionsToPM(EP_Peephole, MPM);<br>
-  MPM.add(createJumpThreadingPass());         // Thread jumps<br>
-  MPM.add(createCorrelatedValuePropagationPass());<br>
-  MPM.add(createDeadStoreEliminationPass());  // Delete dead stores<br>
-  MPM.add(createLICMPass(LicmMssaOptCap, LicmMssaNoAccForPromotionCap));<br>
+  if (OptLevel > 1) {<br>
+    MPM.add(createJumpThreadingPass());         // Thread jumps<br>
+    MPM.add(createCorrelatedValuePropagationPass());<br>
+    MPM.add(createDeadStoreEliminationPass());  // Delete dead stores<br>
+    MPM.add(createLICMPass(LicmMssaOptCap, LicmMssaNoAccForPromotionCap));<br>
+  }<br>
<br>
   addExtensionsToPM(EP_ScalarOptimizerLate, MPM);<br>
<br>
   if (RerollLoops)<br>
     MPM.add(createLoopRerollPass());<br>
<br>
+  // TODO: Investigate if this is too expensive at O1.<br>
   MPM.add(createAggressiveDCEPass());         // Delete dead instructions<br>
   MPM.add(createCFGSimplificationPass()); // Merge & remove BBs<br>
   // Clean up after everything.<br>
@@ -899,7 +912,8 @@ void PassManagerBuilder::addLTOOptimizationPasses(legacy::PassManagerBase &PM) {<br>
<br>
   // LTO provides additional opportunities for tailcall elimination due to<br>
   // link-time inlining, and visibility of nocapture attribute.<br>
-  PM.add(createTailCallEliminationPass());<br>
+  if (OptLevel > 1)<br>
+    PM.add(createTailCallEliminationPass());<br>
<br>
   // Infer attributes on declarations, call sites, arguments, etc.<br>
   PM.add(createPostOrderFunctionAttrsLegacyPass()); // Add nocapture.<br>
<br>
diff  --git a/llvm/test/CodeGen/AMDGPU/simplify-libcalls.ll b/llvm/test/CodeGen/AMDGPU/simplify-libcalls.ll<br>
index 859f848d228c..682c0679fa24 100644<br>
--- a/llvm/test/CodeGen/AMDGPU/simplify-libcalls.ll<br>
+++ b/llvm/test/CodeGen/AMDGPU/simplify-libcalls.ll<br>
@@ -3,17 +3,17 @@<br>
 ; RUN: opt -S -O1 -mtriple=amdgcn-- -amdgpu-use-native -amdgpu-prelink < %s | FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GCN-NATIVE %s<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_sincos<br>
-; GCN-POSTLINK: tail call fast float @_Z3sinf(<br>
-; GCN-POSTLINK: tail call fast float @_Z3cosf(<br>
+; GCN-POSTLINK: call fast float @_Z3sinf(<br>
+; GCN-POSTLINK: call fast float @_Z3cosf(<br>
 ; GCN-PRELINK: call fast float @_Z6sincosfPf(<br>
-; GCN-NATIVE: tail call fast float @_Z10native_sinf(<br>
-; GCN-NATIVE: tail call fast float @_Z10native_cosf(<br>
+; GCN-NATIVE: call fast float @_Z10native_sinf(<br>
+; GCN-NATIVE: call fast float @_Z10native_cosf(<br>
 define amdgpu_kernel void @test_sincos(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3sinf(float %tmp)<br>
+  %call = call fast float @_Z3sinf(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
-  %call2 = tail call fast float @_Z3cosf(float %tmp)<br>
+  %call2 = call fast float @_Z3cosf(float %tmp)<br>
   %arrayidx3 = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   store float %call2, float addrspace(1)* %arrayidx3, align 4<br>
   ret void<br>
@@ -24,17 +24,17 @@ declare float @_Z3sinf(float)<br>
 declare float @_Z3cosf(float)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_sincos_v2<br>
-; GCN-POSTLINK: tail call fast <2 x float> @_Z3sinDv2_f(<br>
-; GCN-POSTLINK: tail call fast <2 x float> @_Z3cosDv2_f(<br>
+; GCN-POSTLINK: call fast <2 x float> @_Z3sinDv2_f(<br>
+; GCN-POSTLINK: call fast <2 x float> @_Z3cosDv2_f(<br>
 ; GCN-PRELINK: call fast <2 x float> @_Z6sincosDv2_fPS_(<br>
-; GCN-NATIVE: tail call fast <2 x float> @_Z10native_sinDv2_f(<br>
-; GCN-NATIVE: tail call fast <2 x float> @_Z10native_cosDv2_f(<br>
+; GCN-NATIVE: call fast <2 x float> @_Z10native_sinDv2_f(<br>
+; GCN-NATIVE: call fast <2 x float> @_Z10native_cosDv2_f(<br>
 define amdgpu_kernel void @test_sincos_v2(<2 x float> addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load <2 x float>, <2 x float> addrspace(1)* %a, align 8<br>
-  %call = tail call fast <2 x float> @_Z3sinDv2_f(<2 x float> %tmp)<br>
+  %call = call fast <2 x float> @_Z3sinDv2_f(<2 x float> %tmp)<br>
   store <2 x float> %call, <2 x float> addrspace(1)* %a, align 8<br>
-  %call2 = tail call fast <2 x float> @_Z3cosDv2_f(<2 x float> %tmp)<br>
+  %call2 = call fast <2 x float> @_Z3cosDv2_f(<2 x float> %tmp)<br>
   %arrayidx3 = getelementptr inbounds <2 x float>, <2 x float> addrspace(1)* %a, i64 1<br>
   store <2 x float> %call2, <2 x float> addrspace(1)* %arrayidx3, align 8<br>
   ret void<br>
@@ -45,20 +45,20 @@ declare <2 x float> @_Z3sinDv2_f(<2 x float>)<br>
 declare <2 x float> @_Z3cosDv2_f(<2 x float>)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_sincos_v3<br>
-; GCN-POSTLINK: tail call fast <3 x float> @_Z3sinDv3_f(<br>
-; GCN-POSTLINK: tail call fast <3 x float> @_Z3cosDv3_f(<br>
+; GCN-POSTLINK: call fast <3 x float> @_Z3sinDv3_f(<br>
+; GCN-POSTLINK: call fast <3 x float> @_Z3cosDv3_f(<br>
 ; GCN-PRELINK: call fast <3 x float> @_Z6sincosDv3_fPS_(<br>
-; GCN-NATIVE: tail call fast <3 x float> @_Z10native_sinDv3_f(<br>
-; GCN-NATIVE: tail call fast <3 x float> @_Z10native_cosDv3_f(<br>
+; GCN-NATIVE: call fast <3 x float> @_Z10native_sinDv3_f(<br>
+; GCN-NATIVE: call fast <3 x float> @_Z10native_cosDv3_f(<br>
 define amdgpu_kernel void @test_sincos_v3(<3 x float> addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %castToVec4 = bitcast <3 x float> addrspace(1)* %a to <4 x float> addrspace(1)*<br>
   %loadVec4 = load <4 x float>, <4 x float> addrspace(1)* %castToVec4, align 16<br>
   %extractVec4 = shufflevector <4 x float> %loadVec4, <4 x float> undef, <3 x i32> <i32 0, i32 1, i32 2><br>
-  %call = tail call fast <3 x float> @_Z3sinDv3_f(<3 x float> %extractVec4)<br>
+  %call = call fast <3 x float> @_Z3sinDv3_f(<3 x float> %extractVec4)<br>
   %extractVec6 = shufflevector <3 x float> %call, <3 x float> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 undef><br>
   store <4 x float> %extractVec6, <4 x float> addrspace(1)* %castToVec4, align 16<br>
-  %call11 = tail call fast <3 x float> @_Z3cosDv3_f(<3 x float> %extractVec4)<br>
+  %call11 = call fast <3 x float> @_Z3cosDv3_f(<3 x float> %extractVec4)<br>
   %arrayidx12 = getelementptr inbounds <3 x float>, <3 x float> addrspace(1)* %a, i64 1<br>
   %extractVec13 = shufflevector <3 x float> %call11, <3 x float> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 undef><br>
   %storetmp14 = bitcast <3 x float> addrspace(1)* %arrayidx12 to <4 x float> addrspace(1)*<br>
@@ -71,17 +71,17 @@ declare <3 x float> @_Z3sinDv3_f(<3 x float>)<br>
 declare <3 x float> @_Z3cosDv3_f(<3 x float>)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_sincos_v4<br>
-; GCN-POSTLINK: tail call fast <4 x float> @_Z3sinDv4_f(<br>
-; GCN-POSTLINK: tail call fast <4 x float> @_Z3cosDv4_f(<br>
+; GCN-POSTLINK: call fast <4 x float> @_Z3sinDv4_f(<br>
+; GCN-POSTLINK: call fast <4 x float> @_Z3cosDv4_f(<br>
 ; GCN-PRELINK: call fast <4 x float> @_Z6sincosDv4_fPS_(<br>
-; GCN-NATIVE: tail call fast <4 x float> @_Z10native_sinDv4_f(<br>
-; GCN-NATIVE: tail call fast <4 x float> @_Z10native_cosDv4_f(<br>
+; GCN-NATIVE: call fast <4 x float> @_Z10native_sinDv4_f(<br>
+; GCN-NATIVE: call fast <4 x float> @_Z10native_cosDv4_f(<br>
 define amdgpu_kernel void @test_sincos_v4(<4 x float> addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load <4 x float>, <4 x float> addrspace(1)* %a, align 16<br>
-  %call = tail call fast <4 x float> @_Z3sinDv4_f(<4 x float> %tmp)<br>
+  %call = call fast <4 x float> @_Z3sinDv4_f(<4 x float> %tmp)<br>
   store <4 x float> %call, <4 x float> addrspace(1)* %a, align 16<br>
-  %call2 = tail call fast <4 x float> @_Z3cosDv4_f(<4 x float> %tmp)<br>
+  %call2 = call fast <4 x float> @_Z3cosDv4_f(<4 x float> %tmp)<br>
   %arrayidx3 = getelementptr inbounds <4 x float>, <4 x float> addrspace(1)* %a, i64 1<br>
   store <4 x float> %call2, <4 x float> addrspace(1)* %arrayidx3, align 16<br>
   ret void<br>
@@ -92,17 +92,17 @@ declare <4 x float> @_Z3sinDv4_f(<4 x float>)<br>
 declare <4 x float> @_Z3cosDv4_f(<4 x float>)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_sincos_v8<br>
-; GCN-POSTLINK: tail call fast <8 x float> @_Z3sinDv8_f(<br>
-; GCN-POSTLINK: tail call fast <8 x float> @_Z3cosDv8_f(<br>
+; GCN-POSTLINK: call fast <8 x float> @_Z3sinDv8_f(<br>
+; GCN-POSTLINK: call fast <8 x float> @_Z3cosDv8_f(<br>
 ; GCN-PRELINK: call fast <8 x float> @_Z6sincosDv8_fPS_(<br>
-; GCN-NATIVE: tail call fast <8 x float> @_Z10native_sinDv8_f(<br>
-; GCN-NATIVE: tail call fast <8 x float> @_Z10native_cosDv8_f(<br>
+; GCN-NATIVE: call fast <8 x float> @_Z10native_sinDv8_f(<br>
+; GCN-NATIVE: call fast <8 x float> @_Z10native_cosDv8_f(<br>
 define amdgpu_kernel void @test_sincos_v8(<8 x float> addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load <8 x float>, <8 x float> addrspace(1)* %a, align 32<br>
-  %call = tail call fast <8 x float> @_Z3sinDv8_f(<8 x float> %tmp)<br>
+  %call = call fast <8 x float> @_Z3sinDv8_f(<8 x float> %tmp)<br>
   store <8 x float> %call, <8 x float> addrspace(1)* %a, align 32<br>
-  %call2 = tail call fast <8 x float> @_Z3cosDv8_f(<8 x float> %tmp)<br>
+  %call2 = call fast <8 x float> @_Z3cosDv8_f(<8 x float> %tmp)<br>
   %arrayidx3 = getelementptr inbounds <8 x float>, <8 x float> addrspace(1)* %a, i64 1<br>
   store <8 x float> %call2, <8 x float> addrspace(1)* %arrayidx3, align 32<br>
   ret void<br>
@@ -113,17 +113,17 @@ declare <8 x float> @_Z3sinDv8_f(<8 x float>)<br>
 declare <8 x float> @_Z3cosDv8_f(<8 x float>)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_sincos_v16<br>
-; GCN-POSTLINK: tail call fast <16 x float> @_Z3sinDv16_f(<br>
-; GCN-POSTLINK: tail call fast <16 x float> @_Z3cosDv16_f(<br>
+; GCN-POSTLINK: call fast <16 x float> @_Z3sinDv16_f(<br>
+; GCN-POSTLINK: call fast <16 x float> @_Z3cosDv16_f(<br>
 ; GCN-PRELINK: call fast <16 x float> @_Z6sincosDv16_fPS_(<br>
-; GCN-NATIVE: tail call fast <16 x float> @_Z10native_sinDv16_f(<br>
-; GCN-NATIVE: tail call fast <16 x float> @_Z10native_cosDv16_f(<br>
+; GCN-NATIVE: call fast <16 x float> @_Z10native_sinDv16_f(<br>
+; GCN-NATIVE: call fast <16 x float> @_Z10native_cosDv16_f(<br>
 define amdgpu_kernel void @test_sincos_v16(<16 x float> addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load <16 x float>, <16 x float> addrspace(1)* %a, align 64<br>
-  %call = tail call fast <16 x float> @_Z3sinDv16_f(<16 x float> %tmp)<br>
+  %call = call fast <16 x float> @_Z3sinDv16_f(<16 x float> %tmp)<br>
   store <16 x float> %call, <16 x float> addrspace(1)* %a, align 64<br>
-  %call2 = tail call fast <16 x float> @_Z3cosDv16_f(<16 x float> %tmp)<br>
+  %call2 = call fast <16 x float> @_Z3cosDv16_f(<16 x float> %tmp)<br>
   %arrayidx3 = getelementptr inbounds <16 x float>, <16 x float> addrspace(1)* %a, i64 1<br>
   store <16 x float> %call2, <16 x float> addrspace(1)* %arrayidx3, align 64<br>
   ret void<br>
@@ -137,7 +137,7 @@ declare <16 x float> @_Z3cosDv16_f(<16 x float>)<br>
 ; GCN: store float 0x3FD5555560000000, float addrspace(1)* %a<br>
 define amdgpu_kernel void @test_native_recip(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
-  %call = tail call fast float @_Z12native_recipf(float 3.000000e+00)<br>
+  %call = call fast float @_Z12native_recipf(float 3.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -148,7 +148,7 @@ declare float @_Z12native_recipf(float)<br>
 ; GCN: store float 0x3FD5555560000000, float addrspace(1)* %a<br>
 define amdgpu_kernel void @test_half_recip(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
-  %call = tail call fast float @_Z10half_recipf(float 3.000000e+00)<br>
+  %call = call fast float @_Z10half_recipf(float 3.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -160,7 +160,7 @@ declare float @_Z10half_recipf(float)<br>
 define amdgpu_kernel void @test_native_divide(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z13native_divideff(float %tmp, float 3.000000e+00)<br>
+  %call = call fast float @_Z13native_divideff(float %tmp, float 3.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -172,7 +172,7 @@ declare float @_Z13native_divideff(float, float)<br>
 define amdgpu_kernel void @test_half_divide(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z11half_divideff(float %tmp, float 3.000000e+00)<br>
+  %call = call fast float @_Z11half_divideff(float %tmp, float 3.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -184,7 +184,7 @@ declare float @_Z11half_divideff(float, float)<br>
 define amdgpu_kernel void @test_pow_0f(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float 0.000000e+00)<br>
+  %call = call fast float @_Z3powff(float %tmp, float 0.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -196,7 +196,7 @@ declare float @_Z3powff(float, float)<br>
 define amdgpu_kernel void @test_pow_0i(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float 0.000000e+00)<br>
+  %call = call fast float @_Z3powff(float %tmp, float 0.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -208,7 +208,7 @@ define amdgpu_kernel void @test_pow_1f(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float 1.000000e+00)<br>
+  %call = call fast float @_Z3powff(float %tmp, float 1.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -220,7 +220,7 @@ define amdgpu_kernel void @test_pow_1i(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float 1.000000e+00)<br>
+  %call = call fast float @_Z3powff(float %tmp, float 1.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -231,7 +231,7 @@ entry:<br>
 define amdgpu_kernel void @test_pow_2f(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float 2.000000e+00)<br>
+  %call = call fast float @_Z3powff(float %tmp, float 2.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -242,7 +242,7 @@ entry:<br>
 define amdgpu_kernel void @test_pow_2i(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float 2.000000e+00)<br>
+  %call = call fast float @_Z3powff(float %tmp, float 2.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -254,7 +254,7 @@ define amdgpu_kernel void @test_pow_m1f(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float -1.000000e+00)<br>
+  %call = call fast float @_Z3powff(float %tmp, float -1.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -266,31 +266,31 @@ define amdgpu_kernel void @test_pow_m1i(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float -1.000000e+00)<br>
+  %call = call fast float @_Z3powff(float %tmp, float -1.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pow_half<br>
-; GCN-POSTLINK: tail call fast float @_Z3powff(float %tmp, float 5.000000e-01)<br>
-; GCN-PRELINK: %__pow2sqrt = tail call fast float @_Z4sqrtf(float %tmp)<br>
+; GCN-POSTLINK: call fast float @_Z3powff(float %tmp, float 5.000000e-01)<br>
+; GCN-PRELINK: %__pow2sqrt = call fast float @_Z4sqrtf(float %tmp)<br>
 define amdgpu_kernel void @test_pow_half(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float 5.000000e-01)<br>
+  %call = call fast float @_Z3powff(float %tmp, float 5.000000e-01)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pow_mhalf<br>
-; GCN-POSTLINK: tail call fast float @_Z3powff(float %tmp, float -5.000000e-01)<br>
-; GCN-PRELINK: %__pow2rsqrt = tail call fast float @_Z5rsqrtf(float %tmp)<br>
+; GCN-POSTLINK: call fast float @_Z3powff(float %tmp, float -5.000000e-01)<br>
+; GCN-PRELINK: %__pow2rsqrt = call fast float @_Z5rsqrtf(float %tmp)<br>
 define amdgpu_kernel void @test_pow_mhalf(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float -5.000000e-01)<br>
+  %call = call fast float @_Z3powff(float %tmp, float -5.000000e-01)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -305,7 +305,7 @@ define amdgpu_kernel void @test_pow_c(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float 1.100000e+01)<br>
+  %call = call fast float @_Z3powff(float %tmp, float 1.100000e+01)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -320,7 +320,7 @@ define amdgpu_kernel void @test_powr_c(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z4powrff(float %tmp, float 1.100000e+01)<br>
+  %call = call fast float @_Z4powrff(float %tmp, float 1.100000e+01)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -337,7 +337,7 @@ define amdgpu_kernel void @test_pown_c(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z4pownfi(float %tmp, i32 11)<br>
+  %call = call fast float @_Z4pownfi(float %tmp, i32 11)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -345,11 +345,11 @@ entry:<br>
 declare float @_Z4pownfi(float, i32)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pow<br>
-; GCN-POSTLINK: tail call fast float @_Z3powff(float %tmp, float 1.013000e+03)<br>
-; GCN-PRELINK: %__fabs = tail call fast float @_Z4fabsf(float %tmp)<br>
-; GCN-PRELINK: %__log2 = tail call fast float @_Z4log2f(float %__fabs)<br>
+; GCN-POSTLINK: call fast float @_Z3powff(float %tmp, float 1.013000e+03)<br>
+; GCN-PRELINK: %__fabs = call fast float @_Z4fabsf(float %tmp)<br>
+; GCN-PRELINK: %__log2 = call fast float @_Z4log2f(float %__fabs)<br>
 ; GCN-PRELINK: %__ylogx = fmul fast float %__log2, 1.013000e+03<br>
-; GCN-PRELINK: %__exp2 = tail call fast float @_Z4exp2f(float %__ylogx)<br>
+; GCN-PRELINK: %__exp2 = call fast float @_Z4exp2f(float %__ylogx)<br>
 ; GCN-PRELINK: %[[r0:.*]] = bitcast float %tmp to i32<br>
 ; GCN-PRELINK: %__pow_sign = and i32 %[[r0]], -2147483648<br>
 ; GCN-PRELINK: %[[r1:.*]] = bitcast float %__exp2 to i32<br>
@@ -359,39 +359,39 @@ declare float @_Z4pownfi(float, i32)<br>
 define amdgpu_kernel void @test_pow(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3powff(float %tmp, float 1.013000e+03)<br>
+  %call = call fast float @_Z3powff(float %tmp, float 1.013000e+03)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_powr<br>
-; GCN-POSTLINK: tail call fast float @_Z4powrff(float %tmp, float %tmp1)<br>
-; GCN-PRELINK: %__log2 = tail call fast float @_Z4log2f(float %tmp)<br>
+; GCN-POSTLINK: call fast float @_Z4powrff(float %tmp, float %tmp1)<br>
+; GCN-PRELINK: %__log2 = call fast float @_Z4log2f(float %tmp)<br>
 ; GCN-PRELINK: %__ylogx = fmul fast float %__log2, %tmp1<br>
-; GCN-PRELINK: %__exp2 = tail call fast float @_Z4exp2f(float %__ylogx)<br>
+; GCN-PRELINK: %__exp2 = call fast float @_Z4exp2f(float %__ylogx)<br>
 ; GCN-PRELINK: store float %__exp2, float addrspace(1)* %a, align 4<br>
-; GCN-NATIVE:  %__log2 = tail call fast float @_Z11native_log2f(float %tmp)<br>
+; GCN-NATIVE:  %__log2 = call fast float @_Z11native_log2f(float %tmp)<br>
 ; GCN-NATIVE:  %__ylogx = fmul fast float %__log2, %tmp1<br>
-; GCN-NATIVE:  %__exp2 = tail call fast float @_Z11native_exp2f(float %__ylogx)<br>
+; GCN-NATIVE:  %__exp2 = call fast float @_Z11native_exp2f(float %__ylogx)<br>
 ; GCN-NATIVE:  store float %__exp2, float addrspace(1)* %a, align 4<br>
 define amdgpu_kernel void @test_powr(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
   %arrayidx1 = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp1 = load float, float addrspace(1)* %arrayidx1, align 4<br>
-  %call = tail call fast float @_Z4powrff(float %tmp, float %tmp1)<br>
+  %call = call fast float @_Z4powrff(float %tmp, float %tmp1)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pown<br>
-; GCN-POSTLINK: tail call fast float @_Z4pownfi(float %tmp, i32 %conv)<br>
+; GCN-POSTLINK: call fast float @_Z4pownfi(float %tmp, i32 %conv)<br>
 ; GCN-PRELINK: %conv = fptosi float %tmp1 to i32<br>
-; GCN-PRELINK: %__fabs = tail call fast float @_Z4fabsf(float %tmp)<br>
-; GCN-PRELINK: %__log2 = tail call fast float @_Z4log2f(float %__fabs)<br>
+; GCN-PRELINK: %__fabs = call fast float @_Z4fabsf(float %tmp)<br>
+; GCN-PRELINK: %__log2 = call fast float @_Z4log2f(float %__fabs)<br>
 ; GCN-PRELINK: %pownI2F = sitofp i32 %conv to float<br>
 ; GCN-PRELINK: %__ylogx = fmul fast float %__log2, %pownI2F<br>
-; GCN-PRELINK: %__exp2 = tail call fast float @_Z4exp2f(float %__ylogx)<br>
+; GCN-PRELINK: %__exp2 = call fast float @_Z4exp2f(float %__ylogx)<br>
 ; GCN-PRELINK: %__yeven = shl i32 %conv, 31<br>
 ; GCN-PRELINK: %[[r0:.*]] = bitcast float %tmp to i32<br>
 ; GCN-PRELINK: %__pow_sign = and i32 %__yeven, %[[r0]]<br>
@@ -405,7 +405,7 @@ entry:<br>
   %arrayidx1 = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp1 = load float, float addrspace(1)* %arrayidx1, align 4<br>
   %conv = fptosi float %tmp1 to i32<br>
-  %call = tail call fast float @_Z4pownfi(float %tmp, i32 %conv)<br>
+  %call = call fast float @_Z4pownfi(float %tmp, i32 %conv)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -417,7 +417,7 @@ define amdgpu_kernel void @test_rootn_1(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
-  %call = tail call fast float @_Z5rootnfi(float %tmp, i32 1)<br>
+  %call = call fast float @_Z5rootnfi(float %tmp, i32 1)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -425,23 +425,23 @@ entry:<br>
 declare float @_Z5rootnfi(float, i32)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_rootn_2<br>
-; GCN-POSTLINK: tail call fast float @_Z5rootnfi(float %tmp, i32 2)<br>
-; GCN-PRELINK: %__rootn2sqrt = tail call fast float @_Z4sqrtf(float %tmp)<br>
+; GCN-POSTLINK: call fast float @_Z5rootnfi(float %tmp, i32 2)<br>
+; GCN-PRELINK: %__rootn2sqrt = call fast float @_Z4sqrtf(float %tmp)<br>
 define amdgpu_kernel void @test_rootn_2(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z5rootnfi(float %tmp, i32 2)<br>
+  %call = call fast float @_Z5rootnfi(float %tmp, i32 2)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_rootn_3<br>
-; GCN-POSTLINK: tail call fast float @_Z5rootnfi(float %tmp, i32 3)<br>
-; GCN-PRELINK: %__rootn2cbrt = tail call fast float @_Z4cbrtf(float %tmp)<br>
+; GCN-POSTLINK: call fast float @_Z5rootnfi(float %tmp, i32 3)<br>
+; GCN-PRELINK: %__rootn2cbrt = call fast float @_Z4cbrtf(float %tmp)<br>
 define amdgpu_kernel void @test_rootn_3(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z5rootnfi(float %tmp, i32 3)<br>
+  %call = call fast float @_Z5rootnfi(float %tmp, i32 3)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -451,18 +451,18 @@ entry:<br>
 define amdgpu_kernel void @test_rootn_m1(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z5rootnfi(float %tmp, i32 -1)<br>
+  %call = call fast float @_Z5rootnfi(float %tmp, i32 -1)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_rootn_m2<br>
-; GCN-POSTLINK: tail call fast float @_Z5rootnfi(float %tmp, i32 -2)<br>
-; GCN-PRELINK: %__rootn2rsqrt = tail call fast float @_Z5rsqrtf(float %tmp)<br>
+; GCN-POSTLINK: call fast float @_Z5rootnfi(float %tmp, i32 -2)<br>
+; GCN-PRELINK: %__rootn2rsqrt = call fast float @_Z5rsqrtf(float %tmp)<br>
 define amdgpu_kernel void @test_rootn_m2(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z5rootnfi(float %tmp, i32 -2)<br>
+  %call = call fast float @_Z5rootnfi(float %tmp, i32 -2)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -472,7 +472,7 @@ entry:<br>
 define amdgpu_kernel void @test_fma_0x(float addrspace(1)* nocapture %a, float %y) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3fmafff(float 0.000000e+00, float %tmp, float %y)<br>
+  %call = call fast float @_Z3fmafff(float 0.000000e+00, float %tmp, float %y)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -484,7 +484,7 @@ declare float @_Z3fmafff(float, float, float)<br>
 define amdgpu_kernel void @test_fma_x0(float addrspace(1)* nocapture %a, float %y) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3fmafff(float %tmp, float 0.000000e+00, float %y)<br>
+  %call = call fast float @_Z3fmafff(float %tmp, float 0.000000e+00, float %y)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -494,7 +494,7 @@ entry:<br>
 define amdgpu_kernel void @test_mad_0x(float addrspace(1)* nocapture %a, float %y) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3madfff(float 0.000000e+00, float %tmp, float %y)<br>
+  %call = call fast float @_Z3madfff(float 0.000000e+00, float %tmp, float %y)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -506,7 +506,7 @@ declare float @_Z3madfff(float, float, float)<br>
 define amdgpu_kernel void @test_mad_x0(float addrspace(1)* nocapture %a, float %y) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3madfff(float %tmp, float 0.000000e+00, float %y)<br>
+  %call = call fast float @_Z3madfff(float %tmp, float 0.000000e+00, float %y)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -516,7 +516,7 @@ entry:<br>
 define amdgpu_kernel void @test_fma_x1y(float addrspace(1)* nocapture %a, float %y) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3fmafff(float %tmp, float 1.000000e+00, float %y)<br>
+  %call = call fast float @_Z3fmafff(float %tmp, float 1.000000e+00, float %y)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -526,7 +526,7 @@ entry:<br>
 define amdgpu_kernel void @test_fma_1xy(float addrspace(1)* nocapture %a, float %y) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3fmafff(float 1.000000e+00, float %tmp, float %y)<br>
+  %call = call fast float @_Z3fmafff(float 1.000000e+00, float %tmp, float %y)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -538,17 +538,17 @@ entry:<br>
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp = load float, float addrspace(1)* %arrayidx, align 4<br>
   %tmp1 = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3fmafff(float %tmp, float %tmp1, float 0.000000e+00)<br>
+  %call = call fast float @_Z3fmafff(float %tmp, float %tmp1, float 0.000000e+00)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_exp<br>
-; GCN-NATIVE: tail call fast float @_Z10native_expf(float %tmp)<br>
+; GCN-NATIVE: call fast float @_Z10native_expf(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_exp(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3expf(float %tmp)<br>
+  %call = call fast float @_Z3expf(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -556,11 +556,11 @@ entry:<br>
 declare float @_Z3expf(float)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_exp2<br>
-; GCN-NATIVE: tail call fast float @_Z11native_exp2f(float %tmp)<br>
+; GCN-NATIVE: call fast float @_Z11native_exp2f(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_exp2(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z4exp2f(float %tmp)<br>
+  %call = call fast float @_Z4exp2f(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -568,11 +568,11 @@ entry:<br>
 declare float @_Z4exp2f(float)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_exp10<br>
-; GCN-NATIVE: tail call fast float @_Z12native_exp10f(float %tmp)<br>
+; GCN-NATIVE: call fast float @_Z12native_exp10f(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_exp10(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z5exp10f(float %tmp)<br>
+  %call = call fast float @_Z5exp10f(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -580,11 +580,11 @@ entry:<br>
 declare float @_Z5exp10f(float)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_log<br>
-; GCN-NATIVE: tail call fast float @_Z10native_logf(float %tmp)<br>
+; GCN-NATIVE: call fast float @_Z10native_logf(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_log(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3logf(float %tmp)<br>
+  %call = call fast float @_Z3logf(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -592,11 +592,11 @@ entry:<br>
 declare float @_Z3logf(float)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_log2<br>
-; GCN-NATIVE: tail call fast float @_Z11native_log2f(float %tmp)<br>
+; GCN-NATIVE: call fast float @_Z11native_log2f(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_log2(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z4log2f(float %tmp)<br>
+  %call = call fast float @_Z4log2f(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -604,11 +604,11 @@ entry:<br>
 declare float @_Z4log2f(float)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_log10<br>
-; GCN-NATIVE: tail call fast float @_Z12native_log10f(float %tmp)<br>
+; GCN-NATIVE: call fast float @_Z12native_log10f(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_log10(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z5log10f(float %tmp)<br>
+  %call = call fast float @_Z5log10f(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -617,36 +617,36 @@ declare float @_Z5log10f(float)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_powr<br>
 ; GCN-NATIVE: %tmp1 = load float, float addrspace(1)* %arrayidx1, align 4<br>
-; GCN-NATIVE: %__log2 = tail call fast float @_Z11native_log2f(float %tmp)<br>
+; GCN-NATIVE: %__log2 = call fast float @_Z11native_log2f(float %tmp)<br>
 ; GCN-NATIVE: %__ylogx = fmul fast float %__log2, %tmp1<br>
-; GCN-NATIVE: %__exp2 = tail call fast float @_Z11native_exp2f(float %__ylogx)<br>
+; GCN-NATIVE: %__exp2 = call fast float @_Z11native_exp2f(float %__ylogx)<br>
 ; GCN-NATIVE: store float %__exp2, float addrspace(1)* %a, align 4<br>
 define amdgpu_kernel void @test_use_native_powr(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
   %arrayidx1 = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp1 = load float, float addrspace(1)* %arrayidx1, align 4<br>
-  %call = tail call fast float @_Z4powrff(float %tmp, float %tmp1)<br>
+  %call = call fast float @_Z4powrff(float %tmp, float %tmp1)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_sqrt<br>
-; GCN-NATIVE: tail call fast float @_Z11native_sqrtf(float %tmp)<br>
+; GCN-NATIVE: call fast float @_Z11native_sqrtf(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_sqrt(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z4sqrtf(float %tmp)<br>
+  %call = call fast float @_Z4sqrtf(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_dont_use_native_sqrt_fast_f64<br>
-; GCN: tail call fast double @_Z4sqrtd(double %tmp)<br>
+; GCN: call fast double @_Z4sqrtd(double %tmp)<br>
 define amdgpu_kernel void @test_dont_use_native_sqrt_fast_f64(double addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load double, double addrspace(1)* %a, align 8<br>
-  %call = tail call fast double @_Z4sqrtd(double %tmp)<br>
+  %call = call fast double @_Z4sqrtd(double %tmp)<br>
   store double %call, double addrspace(1)* %a, align 8<br>
   ret void<br>
 }<br>
@@ -655,11 +655,11 @@ declare float @_Z4sqrtf(float)<br>
 declare double @_Z4sqrtd(double)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_rsqrt<br>
-; GCN-NATIVE: tail call fast float @_Z12native_rsqrtf(float %tmp)<br>
+; GCN-NATIVE: call fast float @_Z12native_rsqrtf(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_rsqrt(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z5rsqrtf(float %tmp)<br>
+  %call = call fast float @_Z5rsqrtf(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -667,11 +667,11 @@ entry:<br>
 declare float @_Z5rsqrtf(float)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_tan<br>
-; GCN-NATIVE: tail call fast float @_Z10native_tanf(float %tmp)<br>
+; GCN-NATIVE: call fast float @_Z10native_tanf(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_tan(float addrspace(1)* nocapture %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
-  %call = tail call fast float @_Z3tanf(float %tmp)<br>
+  %call = call fast float @_Z3tanf(float %tmp)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -679,14 +679,14 @@ entry:<br>
 declare float @_Z3tanf(float)<br>
<br>
 ; GCN-LABEL: {{^}}define amdgpu_kernel void @test_use_native_sincos<br>
-; GCN-NATIVE: tail call float @_Z10native_sinf(float %tmp)<br>
-; GCN-NATIVE: tail call float @_Z10native_cosf(float %tmp)<br>
+; GCN-NATIVE: call float @_Z10native_sinf(float %tmp)<br>
+; GCN-NATIVE: call float @_Z10native_cosf(float %tmp)<br>
 define amdgpu_kernel void @test_use_native_sincos(float addrspace(1)* %a) {<br>
 entry:<br>
   %tmp = load float, float addrspace(1)* %a, align 4<br>
   %arrayidx1 = getelementptr inbounds float, float addrspace(1)* %a, i64 1<br>
   %tmp1 = addrspacecast float addrspace(1)* %arrayidx1 to float*<br>
-  %call = tail call fast float @_Z6sincosfPf(float %tmp, float* %tmp1)<br>
+  %call = call fast float @_Z6sincosfPf(float %tmp, float* %tmp1)<br>
   store float %call, float addrspace(1)* %a, align 4<br>
   ret void<br>
 }<br>
@@ -703,10 +703,10 @@ define amdgpu_kernel void @test_read_pipe(%opencl.pipe_t addrspace(1)* %p, i32 a<br>
 entry:<br>
   %tmp = bitcast i32 addrspace(1)* %ptr to i8 addrspace(1)*<br>
   %tmp1 = addrspacecast i8 addrspace(1)* %tmp to i8*<br>
-  %tmp2 = tail call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p, i8* %tmp1, i32 4, i32 4) #0<br>
-  %tmp3 = tail call %opencl.reserve_id_t addrspace(5)* @__reserve_read_pipe(%opencl.pipe_t addrspace(1)* %p, i32 2, i32 4, i32 4)<br>
-  %tmp4 = tail call i32 @__read_pipe_4(%opencl.pipe_t addrspace(1)* %p, %opencl.reserve_id_t addrspace(5)* %tmp3, i32 2, i8* %tmp1, i32 4, i32 4) #0<br>
-  tail call void @__commit_read_pipe(%opencl.pipe_t addrspace(1)* %p, %opencl.reserve_id_t addrspace(5)* %tmp3, i32 4, i32 4)<br>
+  %tmp2 = call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p, i8* %tmp1, i32 4, i32 4) #0<br>
+  %tmp3 = call %opencl.reserve_id_t addrspace(5)* @__reserve_read_pipe(%opencl.pipe_t addrspace(1)* %p, i32 2, i32 4, i32 4)<br>
+  %tmp4 = call i32 @__read_pipe_4(%opencl.pipe_t addrspace(1)* %p, %opencl.reserve_id_t addrspace(5)* %tmp3, i32 2, i8* %tmp1, i32 4, i32 4) #0<br>
+  call void @__commit_read_pipe(%opencl.pipe_t addrspace(1)* %p, %opencl.reserve_id_t addrspace(5)* %tmp3, i32 4, i32 4)<br>
   ret void<br>
 }<br>
<br>
@@ -725,10 +725,10 @@ define amdgpu_kernel void @test_write_pipe(%opencl.pipe_t addrspace(1)* %p, i32<br>
 entry:<br>
   %tmp = bitcast i32 addrspace(1)* %ptr to i8 addrspace(1)*<br>
   %tmp1 = addrspacecast i8 addrspace(1)* %tmp to i8*<br>
-  %tmp2 = tail call i32 @__write_pipe_2(%opencl.pipe_t addrspace(1)* %p, i8* %tmp1, i32 4, i32 4) #0<br>
-  %tmp3 = tail call %opencl.reserve_id_t addrspace(5)* @__reserve_write_pipe(%opencl.pipe_t addrspace(1)* %p, i32 2, i32 4, i32 4) #0<br>
-  %tmp4 = tail call i32 @__write_pipe_4(%opencl.pipe_t addrspace(1)* %p, %opencl.reserve_id_t addrspace(5)* %tmp3, i32 2, i8* %tmp1, i32 4, i32 4) #0<br>
-  tail call void @__commit_write_pipe(%opencl.pipe_t addrspace(1)* %p, %opencl.reserve_id_t addrspace(5)* %tmp3, i32 4, i32 4) #0<br>
+  %tmp2 = call i32 @__write_pipe_2(%opencl.pipe_t addrspace(1)* %p, i8* %tmp1, i32 4, i32 4) #0<br>
+  %tmp3 = call %opencl.reserve_id_t addrspace(5)* @__reserve_write_pipe(%opencl.pipe_t addrspace(1)* %p, i32 2, i32 4, i32 4) #0<br>
+  %tmp4 = call i32 @__write_pipe_4(%opencl.pipe_t addrspace(1)* %p, %opencl.reserve_id_t addrspace(5)* %tmp3, i32 2, i8* %tmp1, i32 4, i32 4) #0<br>
+  call void @__commit_write_pipe(%opencl.pipe_t addrspace(1)* %p, %opencl.reserve_id_t addrspace(5)* %tmp3, i32 4, i32 4) #0<br>
   ret void<br>
 }<br>
<br>
@@ -755,31 +755,31 @@ declare void @__commit_write_pipe(%opencl.pipe_t addrspace(1)*, %opencl.reserve_<br>
 define amdgpu_kernel void @test_pipe_size(%opencl.pipe_t addrspace(1)* %p1, i8 addrspace(1)* %ptr1, %opencl.pipe_t addrspace(1)* %p2, i16 addrspace(1)* %ptr2, %opencl.pipe_t addrspace(1)* %p4, i32 addrspace(1)* %ptr4, %opencl.pipe_t addrspace(1)* %p8, i64 addrspace(1)* %ptr8, %opencl.pipe_t addrspace(1)* %p16, <2 x i64> addrspace(1)* %ptr16, %opencl.pipe_t addrspace(1)* %p32, <4 x i64> addrspace(1)* %ptr32, %opencl.pipe_t addrspace(1)* %p64, <8 x i64> addrspace(1)* %ptr64, %opencl.pipe_t addrspace(1)* %p128, <16 x i64> addrspace(1)* %ptr128, %opencl.pipe_t addrspace(1)* %pu, %struct.S addrspace(1)* %ptru) local_unnamed_addr #0 {<br>
 entry:<br>
   %tmp = addrspacecast i8 addrspace(1)* %ptr1 to i8*<br>
-  %tmp1 = tail call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p1, i8* %tmp, i32 1, i32 1) #0<br>
+  %tmp1 = call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p1, i8* %tmp, i32 1, i32 1) #0<br>
   %tmp2 = bitcast i16 addrspace(1)* %ptr2 to i8 addrspace(1)*<br>
   %tmp3 = addrspacecast i8 addrspace(1)* %tmp2 to i8*<br>
-  %tmp4 = tail call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p2, i8* %tmp3, i32 2, i32 2) #0<br>
+  %tmp4 = call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p2, i8* %tmp3, i32 2, i32 2) #0<br>
   %tmp5 = bitcast i32 addrspace(1)* %ptr4 to i8 addrspace(1)*<br>
   %tmp6 = addrspacecast i8 addrspace(1)* %tmp5 to i8*<br>
-  %tmp7 = tail call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p4, i8* %tmp6, i32 4, i32 4) #0<br>
+  %tmp7 = call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p4, i8* %tmp6, i32 4, i32 4) #0<br>
   %tmp8 = bitcast i64 addrspace(1)* %ptr8 to i8 addrspace(1)*<br>
   %tmp9 = addrspacecast i8 addrspace(1)* %tmp8 to i8*<br>
-  %tmp10 = tail call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p8, i8* %tmp9, i32 8, i32 8) #0<br>
+  %tmp10 = call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p8, i8* %tmp9, i32 8, i32 8) #0<br>
   %tmp11 = bitcast <2 x i64> addrspace(1)* %ptr16 to i8 addrspace(1)*<br>
   %tmp12 = addrspacecast i8 addrspace(1)* %tmp11 to i8*<br>
-  %tmp13 = tail call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p16, i8* %tmp12, i32 16, i32 16) #0<br>
+  %tmp13 = call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p16, i8* %tmp12, i32 16, i32 16) #0<br>
   %tmp14 = bitcast <4 x i64> addrspace(1)* %ptr32 to i8 addrspace(1)*<br>
   %tmp15 = addrspacecast i8 addrspace(1)* %tmp14 to i8*<br>
-  %tmp16 = tail call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p32, i8* %tmp15, i32 32, i32 32) #0<br>
+  %tmp16 = call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p32, i8* %tmp15, i32 32, i32 32) #0<br>
   %tmp17 = bitcast <8 x i64> addrspace(1)* %ptr64 to i8 addrspace(1)*<br>
   %tmp18 = addrspacecast i8 addrspace(1)* %tmp17 to i8*<br>
-  %tmp19 = tail call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p64, i8* %tmp18, i32 64, i32 64) #0<br>
+  %tmp19 = call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p64, i8* %tmp18, i32 64, i32 64) #0<br>
   %tmp20 = bitcast <16 x i64> addrspace(1)* %ptr128 to i8 addrspace(1)*<br>
   %tmp21 = addrspacecast i8 addrspace(1)* %tmp20 to i8*<br>
-  %tmp22 = tail call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p128, i8* %tmp21, i32 128, i32 128) #0<br>
+  %tmp22 = call i32 @__read_pipe_2(%opencl.pipe_t addrspace(1)* %p128, i8* %tmp21, i32 128, i32 128) #0<br>
   %tmp23 = bitcast %struct.S addrspace(1)* %ptru to i8 addrspace(1)*<br>
   %tmp24 = addrspacecast i8 addrspace(1)* %tmp23 to i8*<br>
-  %tm</blockquote></div></div></blockquote></div>