This is a bilingual snapshot page saved by the user at 2025-7-24 16:22 for https://app.immersivetranslate.com/pdf-pro/0a758c77-db57-4e94-8f2c-caa8f0fce0b0/, provided with bilingual support by Immersive Translate. Learn how to save?

Apa yang berhasil dalam e-commerce - sebuah meta-analisis dari 6700 eksperimen online

Will Browne, Mike Swarbrick Jones*Qubit Digital Ltd

22 Juni 2017

Abstrak

Kami melakukan meta-analisis terhadap lebih dari 6700 eksperimen e-commerce besar, terutama dari sektor ritel dan perjalanan, mengelompokkan jenis perlakuan umum yang dilakukan di situs web. Kami menemukan bahwa perubahan kosmetik memiliki dampak yang jauh lebih kecil pada pendapatan dibandingkan dengan perlakuan yang didasarkan pada psikologi perilaku. Penelitian ini telah diaudit secara independen oleh PricewaterhouseCoopers UK LLP 1 1 ^(1){ }^{1} .

1 Pendahuluan

Saat ini, relatif mudah untuk bereksperimen dengan berbagai versi dari situs web yang sama. Ada banyak teknologi dan alat yang dapat membantu bisnis e-commerce membangun dan menjalankan uji coba terkontrol secara acak (yang juga dikenal sebagai uji A / B A / B A//B\mathrm{A} / \mathrm{B} ). Jumlah data yang tersedia untuk situs e-commerce besar memungkinkan bisnis mengukur efek dari perubahan desain, pesan, dan merchandising. Selama tiga tahun terakhir, Qubit telah membantu bisnis ini mengeksplorasi perubahan mana yang terkait dengan peningkatan pendapatan.
Dalam pekerjaan sebelumnya [7], Qubit menunjukkan bahwa banyak praktik yang digunakan dalam industri pengujian A / B A / B A//B\mathrm{A} / \mathrm{B} pada saat itu secara mendasar cacat. Sejak dirilis, kami telah melihat perubahan baik dalam model statistik yang digunakan di industri, maupun pergeseran ke prosedur eksperimental yang lebih kuat. Dalam makalah ini, kami ingin mendorong industri maju lagi, dan menjawab pertanyaan - jenis perubahan apa yang dilakukan klien kami, dan bagaimana dampaknya terhadap pendapatan?
Kami akan menyajikan hasil meta-analisis, yang dilakukan pada tahun 2017, pada basis data besar eksperimen Qubit. Kami akan menjelaskan efek dari 29 jenis perlakuan dan memperkirakan dampak kumulatif dari eksperimen ini terhadap pendapatan situs secara keseluruhan. Metodologi yang digunakan dalam makalah ini telah diaudit secara independen oleh PricewaterhouseCoopers UK LLP ( PwC ) 1 ( PwC ) 1 (PwC)^(1)(\mathrm{PwC})^{1} . Sejauh yang kami ketahui, ini adalah analisis kuantitatif pertama yang dipublikasikan dan diaudit secara independen dari jenisnya. Kami berharap ini akan digunakan untuk meningkatkan kualitas pengujian A / B A / B A//B\mathrm{A} / \mathrm{B} , mengatur ulang ekspektasi, dan memprioritaskan optimasi pada situs web.
Kami telah memutuskan untuk memisahkan pekerjaan ini menjadi tiga bagian untuk menjawab tiga pertanyaan yang sedikit berbeda, dengan menjaga metodologi dan hasil tetap bersama jika memungkinkan. Pada bagian 2 kami membagi eksperimen kami ke dalam kategori perlakuan yang berbeda, dan memperkirakan dampak keseluruhan dari masing-masing. Pada bagian 3 kami memperkirakan distribusi keseluruhan dari semua dampak eksperimen yang digunakan dalam pekerjaan ini. Pada bagian 4 kami melihat bagaimana pengujian A / B A / B A//B\mathrm{A} / \mathrm{B} memengaruhi pendapatan keseluruhan di seluruh situs pada kumpulan domain web. Ada sejumlah lampiran yang memperluas hasil dari bagian-bagian ini.

1.1 Temuan utama

Karena sifat terpisah dari makalah ini, dan karena kami percaya pekerjaan ini mungkin menarik bagi mereka yang kurang tertarik pada metodologi, kami mengumpulkan beberapa hasil utama di sini.
Kami percaya metrik yang paling relevan secara bisnis dan umum tersedia untuk diukur dalam e-commerce adalah pendapatan per pengunjung (RPV). Ini adalah pendapatan yang diharapkan untuk semua pengunjung dalam sebuah eksperimen
(termasuk diskon, dan pengunjung yang tidak membeli apa pun). Kami mengukur efek suatu perlakuan terhadap RPV dalam hal peningkatan proporsional misalnya, meningkatkan rata-rata RPV dari $ 40 $ 40 $40\$ 40 menjadi $ 44 $ 44 $44\$ 44 merupakan peningkatan sebesar 10 % 10 % 10%10 \% . Perlu dicatat bahwa peningkatan ini hanya berlaku bagi mereka yang mengikuti eksperimen, dan tidak selalu berarti peningkatan pendapatan yang sama di seluruh situs.
Kami mengkategorikan sekitar 2.600 eksperimen ke dalam 29 kategori, dan mengukur beberapa statistik, seperti peningkatan rata-rata. Daftar lengkap hasil ada di bagian 2.2.2. Kategori uji yang berkinerja terbaik dalam hal peningkatan rata-rata adalah:
  • kelangkaan (penunjuk stok) + 2.9 % + 2.9 % +2.9%+2.9 \% peningkatan
  • bukti sosial (memberi tahu pengguna tentang perilaku orang lain) + 2.3 % + 2.3 % +2.3%+2.3 \% peningkatan
  • urgensi (penghitung waktu mundur) + 1.5 % + 1.5 % +1.5%+1.5 \% peningkatan
  • pemulihan pengabaian (pesan untuk menjaga pengguna tetap di situs) + 1.1 % + 1.1 % +1.1%+1.1 \% peningkatan
  • rekomendasi produk (menyarankan produk lain untuk dibeli) + 0.4 % + 0.4 % +0.4%+0.4 \% peningkatan
Sebagian besar perubahan UI sederhana pada situs web tidak efektif. Misalnya
  • warna (mengubah warna elemen di sebuah situs web) + 0.0 % + 0.0 % +0.0%+0.0 \% peningkatan
  • tombol (memodifikasi tombol situs web) 0.2 % 0.2 % -0.2%-0.2 \% peningkatan
  • ajakan bertindak (mengubah kata-kata di situs web agar lebih sugestif) 0.3 % 0.3 % -0.3%-0.3 \% peningkatan
Kami menemukan bahwa 90 % 90 % 90%90 \% dari eksperimen memiliki efek kurang dari 1.2 % 1.2 % 1.2%1.2 \% pada pendapatan, baik positif maupun negatif (lihat bagian 3.2). Namun, kami menemukan bahwa secara keseluruhan klien kami mendapatkan manfaat dari kampanye pengujian A / B A / B A//B\mathrm{A} / \mathrm{B} , beberapa sangat besar (lihat bagian 4.2).

2 Efek eksperimen berdasarkan kategori

Meta-analisis adalah ketika seseorang mengumpulkan data dari berbagai studi untuk mengidentifikasi efek yang umum. Pada bagian ini kami mengkategorikan sejumlah besar eksperimen ke dalam 29 kategori perlakuan, dan menjalankan meta-analisis pada setiap kategori secara terpisah. Kami mengasumsikan bahwa ada distribusi dasar yang sederhana untuk peningkatan dalam setiap kategori, dan mencoba memperkirakan rentang parameter yang masuk akal.

2.1 Metodologi

2.1.1 Metodologi pengujian A/B Qubit

Ketika seorang pengguna memasuki situs yang menjalankan teknologi Qubit, sebuah cookie disimpan di browser yang mengidentifikasi pengguna untuk tampilan halaman ini dan yang akan datang.
Perlakuan berbeda dalam eksperimen disebut varian. Pengunjung dialokasikan secara acak ke dalam kontrol atau varian menggunakan hash dari id cookie dan id eksperimen. Jika mereka berada dalam varian, JavaScript perlakuan disuntikkan ke dalam halaman, sehingga perubahan terjadi. Setiap kali sebuah eksperimen dijalankan, ia mengeluarkan event yang dikirim ke sistem pemrosesan data Qubit. Event yang relevan adalah yang menunjukkan bahwa sebuah eksperimen telah ditampilkan kepada pengguna dan yang menunjukkan bahwa sebuah tujuan telah tercapai. Event-event ini digabungkan kemudian diteruskan ke model statistik.
Di Qubit, kami menggunakan model jaringan Bayesian (‘stats-model’) untuk menghitung keyakinan tentang peningkatan pada metrik seperti tingkat konversi atau RPV untuk sebuah eksperimen (lihat gambar 2.1). Kami akan menjelaskan struktur model ini di sini.
Misalkan kita memiliki varian yang diberi label sebagai v = 0 , , M v = 0 , , M v=0,dots,Mv=0, \ldots, M , di mana di sini kita mengasumsikan bahwa varian dengan indeks ke-0 adalah kontrol. Di Qubit kami mengizinkan lebih dari satu varian serta kontrol (ini kadang-kadang disebut pengujian A / B / n A / B / n A//B//n\mathrm{A} / \mathrm{B} / \mathrm{n} dalam industri).
Kami membagi eksperimen kami menjadi ‘iterasi’ sepanjang waktu, yang diberi label i = 0 , , N i = 0 , , N i=0,dots,Ni=0, \ldots, N , yang merupakan titik perubahan dalam kriteria eksperimen, misalnya perubahan kecil pada kode varian. Melacak metrik dasar yang terpisah di setiap iterasi sangat penting ketika ada perubahan proporsi pengunjung yang dialokasikan ke setiap varian atau kontrol. Metrik dasar bisa berbeda antara iterasi, misalnya tingkat konversi untuk semua varian seringkali lebih tinggi di sekitar waktu penjualan. Jika kami mengubah alokasi selama waktu ini, beberapa varian akan memiliki proporsi lalu lintas yang lebih tinggi selama tingkat konversi yang lebih tinggi, yang dapat mempengaruhi hasil pengujian. Model ini dirancang untuk mengakomodasi hal ini. Pengamatan ini sangat penting saat menggunakan algoritma multi-armed-bandit. Ini adalah sesuatu yang kami lakukan
Gambar 2.1: Model statistik Qubit dalam notasi plate
yang kami yakini belum ditangani dengan baik di industri, dan yang ingin kami bahas kembali dalam pekerjaan mendatang.
Untuk varian dengan label v 0 v 0 v!=0v \neq 0 , kami ingin mengukur peningkatan dasar, U v U v U_(v)U_{v} , di seluruh iterasi, yang kami anggap konstan. Target kami adalah distribusi U D U _ D U_∣D\underline{U} \mid \mathcal{D} , di mana U U _ U_\underline{U} adalah distribusi gabungan dari U v U v U_(v)U_{v} , dan D D D\mathcal{D} mewakili semua data dalam eksperimen. Dalam produksi, kami menerapkan prior yang cukup informatif pada variabel peningkatan ini berdasarkan analisis eksperimen historis, yang berarti model ini skeptis terhadap peningkatan/penurunan besar pada setiap pengujian. Karena kami menggabungkan eksperimen di sini, kami menggunakan prior yang tidak informatif.
Kami memodelkan variabel tersembunyi untuk rata-rata dasar metrik untuk setiap iterasi i i ii dan varian v v vv , yang kami beri label sebagai μ i v μ i v mu_(iv)\mu_{i v} (sehingga μ i 0 μ i 0 mu_(i0)\mu_{i 0} adalah rata-rata metrik pada kontrol, yaitu garis dasar untuk metrik tersebut). Misalkan D i v D i v D_(iv)\mathcal{D}_{i v} adalah data untuk iterasi ke- i i ii , varian ke- v v vv . Kita harus mempertimbangkan distribusi P i v ( μ i v ) = P ( μ i v D i v ) P i v μ i v = P μ i v D i v P_(iv)(mu_(iv))=P(mu_(iv)∣D_(iv))P_{i v}\left(\mu_{i v}\right)=\mathcal{P}\left(\mu_{i v} \mid \mathcal{D}_{i v}\right) . Jika μ i v μ i v mu_(iv)\mu_{i v} memodelkan tingkat konversi, maka P i v P i v P_(iv)P_{i v} dapat dimodelkan dengan distribusi binomial dengan parameter p = μ i v p = μ i v p=mu_(iv)p=\mu_{i v} . Situasinya jauh lebih kompleks jika μ i v μ i v mu_(iv)\mu_{i v} mewakili rata-rata pendapatan, karena distribusi pendapatan lebih sulit untuk dimodelkan. Beberapa penyedia perangkat lunak pengujian A/B e-commerce tampaknya menggunakan distribusi parametrik untuk ini, misalnya log-normal atau eksponensial (misalnya [11] §10), analisis internal kami menunjukkan ini dapat memberikan hasil yang salah pada data nyata. Distribusi pendapatan sangat diskrit dan multimodal, bervariasi secara drastis dari bisnis ke bisnis, dan bahkan dari pengujian ke pengujian dalam satu bisnis. Alih-alih menggunakan model parametrik untuk P i v P i v P_(iv)P_{i v} , kami menggunakan model bootstrap Bayesian [9], yang dihaluskan dengan estimator kepadatan kernel. Seringkali ada sebagian kecil pelanggan yang menghabiskan jumlah yang jauh lebih besar dibandingkan pelanggan rata-rata, dalam skenario ini kelompok kecil tersebut dapat menambah ketidakpastian besar pada pengukuran peningkatan. Untuk mengatasi hal ini, kami menghapus 0.1 % 0.1 % 0.1%0.1 \% pelanggan teratas berdasarkan pendapatan di setiap pengujian.
Kami berasumsi bahwa
μ i v = μ i 0 U v . μ i v = μ i 0 U v . mu_(iv)=mu_(i0)*U_(v).\mu_{i v}=\mu_{i 0} \cdot U_{v} .
Menggabungkan semua ini, kita sampai pada jaringan di gambar 2.1. Kami menggunakan MCMC untuk memperoleh sampel gabungan dari U v U v U_(v)U_{v} .

2.1.2 Eksperimen yang termasuk dalam analisis ini

Semua data diperoleh antara 2014-07-09 dan 2017-04-31. Semua eksperimen memiliki pendapatan per pengunjung sebagai tujuan.
Qubit menekankan kepada klien bahwa mereka harus menjalankan eksperimen mereka hingga ukuran sampel yang telah ditentukan sebelumnya. Kadang-kadang hal ini tidak terjadi, misalnya, jika sebuah eksperimen menunjukkan peningkatan negatif yang besar di awal, klien mungkin memilih untuk mengakhiri eksperimen tersebut. Untuk mengurangi bias terhadap eksperimen yang berkinerja lebih baik, kami memasukkan eksperimen dalam analisis kami yang tidak mencapai ukuran sampel yang direkomendasikan, namun, kami memastikan bahwa mereka memiliki setidaknya 1.000 konverter di setiap varian dan kontrol (versi aturan yang lebih rinci adalah bahwa beberapa iterasi harus memiliki setidaknya 1.000 konverter di setiap varian, lihat bagian 2.1.1).
Semua eksperimen dijalankan di browser web. A / B A / B A//B\mathrm{A} / \mathrm{B} pengujian di domain ini menghadapi berbagai masalah potensial, misalnya JavaScript yang menjalankan eksperimen ini dapat gagal
untuk jenis browser dalam sebuah varian. Karena browser yang berbeda mewakili demografi pelanggan yang berbeda, ini akan mempengaruhi hasil tes. Contoh pemeriksaan logika yang kami lakukan di Qubit adalah dengan melihat jumlah pengunjung pada kontrol dan varian. Kami mengetahui rasio yang diharapkan dari kedua kelompok pengunjung ini. Jika rasio yang diamati lebih dari 5 standar deviasi dari nilai tersebut, kami mengasumsikan bahwa kesalahan JavaScript telah membatalkan eksperimen ini.
Dengan demikian, aturan pengecualian ini mengurangi jumlah tes yang tersedia menjadi 6700.

2.1.3 Kategorisasi

Untuk mengklasifikasikan eksperimen, kami mencocokkan nama yang tercatat, nama varian, dan JavaScript yang terkait dengan eksperimen, dengan serangkaian regex yang terkait dengan setiap kategori. Setiap eksperimen dapat dimasukkan ke dalam beberapa kategori. Kategori dan regex dipilih melalui inspeksi awal terhadap 2.000 nama eksperimen. Kategori didefinisikan berdasarkan perubahan visual yang dilakukan pada situs, heuristik perilaku yang digunakan, fungsi yang didorong, atau teknologi pihak ketiga yang diuji. Kombinasi kategori digunakan untuk mengeksplorasi efek dari kategorisasi yang lebih kompleks (misalnya navigasi lengket). Untuk memudahkan pembacaan, definisi kategori kami letakkan di bagian 2.2.1 tepat sebelum hasil.
Kami memeriksa secara manual semua judul dan nama varian untuk memastikan bahwa mereka dikategorikan dengan benar. Kami mengambil setiap langkah yang mungkin untuk mengurangi bias pada tahap ini, misalnya tidak memeriksa peningkatan eksperimen sebelum klasifikasi. Yang penting, jika sesuai, kami memastikan bahwa eksperimen dilakukan terhadap kontrol yang masuk akal, yaitu bukan satu versi perlakuan dibandingkan dengan versi berbeda dari perlakuan yang sama. Hal ini tidak dilakukan untuk perubahan kosmetik, karena hampir selalu hanya dua versi dari elemen yang sama di halaman. Untuk yang tidak jelas, kami memeriksa dokumentasi sebelumnya yang ditulis oleh mereka yang melakukan pengujian untuk memverifikasi, dan jika dokumentasi tersebut tidak tersedia dengan mudah, kami menghilangkan pengujian tersebut.
Secara total, sekitar 3.000 pengujian dikategorikan, dan kami menghilangkan sekitar 20 % 20 % 20%20 \% melalui pemeriksaan manual.

2.1.4 Model hierarkis Bayesian untuk meta-analisis

Sepanjang bagian ini kita akan mengasumsikan kita hanya melihat satu perlakuan, misalnya banner. Kita memiliki satu set hasil eksperimen untuk kategori ini (jejak peningkatan gabungan U v U v U_(v)U_{v} dari proses MCMC model statistik, yang dijelaskan di bagian 2.1.1). Kita tidak ingin mengasumsikan bahwa perlakuan akan memiliki efek yang seragam di semua eksperimen - tentu saja, klien kami tidak mengasumsikan hal ini. Selain itu, beberapa eksperimen memiliki lebih dari satu varian selain kontrol. Peningkatan dari kedua varian tersebut keduanya bergantung pada pengukuran rata-rata kontrol kita, jadi kita tidak boleh memodelkannya secara terpisah.
Untuk mengatasi kekhawatiran ini, kami menggunakan jaringan Bayesian hierarkis (lihat misalnya [4] §5.6). Kami mengasumsikan perlakuan kami memiliki peningkatan nyata keseluruhan untuk eksperimen acak yang dimodelkan oleh distribusi normal dengan rata-rata dan varians μ t , σ t 2 μ t , σ t 2 mu_(t),sigma_(t)^(2)\mu_{\mathrm{t}}, \sigma_{\mathrm{t}}^{2} . Untuk eksperimen dan varian tertentu e , v e , v e,ve, v kami kemudian memodelkan keyakinan kami terhadap peningkatan U v U v U_(v)U_{v} sebagai
U v μ t , σ t N ( μ t , σ t 2 ) . U v μ t , σ t N μ t , σ t 2 . U_(v)∣mu_(t),sigma_(t)∼N(mu_(t),sigma_(t)^(2)).U_{\mathrm{v}} \mid \mu_{\mathrm{t}}, \sigma_{\mathrm{t}} \sim N\left(\mu_{\mathrm{t}}, \sigma_{\mathrm{t}}^{2}\right) .
Meskipun mungkin tampak sebagai asumsi yang kuat bahwa sebuah kategori didistribusikan secara normal tepat, kami pikir ini adalah yang paling masuk akal untuk memperkirakan rata-rata dan varians keseluruhan.
Jika semua data dalam meta-analisis kami dilambangkan dengan D m D m D_(m)\mathcal{D}_{m} , kami memodelkan U v D m U v D m U_(v)∣D_(m)U_{\mathrm{v}} \mid \mathcal{D}_{m} menggunakan jejak gabungan dari eksperimen e e ee yang disimulasikan oleh model statistik pada bagian 2.1.1, dan menghaluskan menggunakan estimator kepadatan kernel multi-dimensi (kami umumnya menemukan ini diperkirakan dengan baik oleh distribusi multi-normal, tetapi kami tidak membuat asumsi ini). Kami menyebut ini sebagai fungsi potensial P e P e P_(e)P_{e} . Ini menyelesaikan jaringan yang ditunjukkan pada gambar 2.2.
Kami memberikan variabel stokastik kami μ t , σ t μ t , σ t mu_(t),sigma_(t)\mu_{t}, \sigma_{t} prior uniform yang tidak informatif (untuk μ t μ t mu_(t)\mu_{t} ini adalah standar, untuk parameter varians lihat misalnya [3] untuk justifikasi).
Kami menggunakan MCMC untuk memperoleh sampel gabungan dari μ t , σ t μ t , σ t mu_(t),sigma_(t)\mu_{t}, \sigma_{t} . Kami memeriksa statistik Gelman-Rubin [6] serta autokorelasi untuk konvergensi dan pencampuran. Kami menyediakan rata-rata parameter ini dalam posterior pada tabel 2.2.2, namun dalam lampiran A kami juga menyediakan interval kredibel lebar minimum yang mengandung 95 % 95 % 95%95 \% dari massa probabilitas. Untuk probabilitas peningkatan pada tabel 2.2.2, kami menghitung proporsi waktu di mana seseorang mengharapkan sampel menjadi positif diberikan ( μ t , σ t μ t , σ t mu_(t),sigma_(t)\mu_{t}, \sigma_{t} ) tertentu, dan merata-ratakan ini di seluruh sampel posterior kami.
Satu kekhawatiran awal yang kami miliki saat melakukan penyelidikan adalah bahwa klien kami yang menjalankan lebih banyak tes akan menambah bias pada hasil dengan menjalankan banyak perlakuan yang sama pada
Gambar 2.2: Model meta-analisis hierarkis Bayesian dalam notasi plate
situs mereka. Jika varians antara perlakuan ini lebih kecil dari varians global, ini akan menjadi masalah. Untuk tujuan ini, kami juga bereksperimen dengan hierarki yang memodelkan rata-rata setiap klien untuk perlakuan secara terpisah, serta ‘varians antar-klien’. Kami bereksperimen dengan menetapkan varians ini menjadi nol, variabel yang dibagi di antara semua klien, atau variabel yang unik untuk setiap klien. Kami menemukan bahwa model-model ini tidak menghasilkan skor DIC [10] yang lebih baik secara konsisten, maupun hasil akhir yang berbeda secara signifikan. Untuk alasan ini, dan untuk menjaga kesederhanaan model, kami tidak menambahkan kompleksitas ini ke dalam model.

2.2 Hasil dan diskusi

Untuk setiap kategori, kami memperkirakan rentang yang masuk akal dari rata-rata dan varians distribusi ini menggunakan model yang dijelaskan dalam bagian 2.1.4 dan menghasilkan output berikut: 1. perkiraan untuk efek rata-rata (rata-rata peningkatan) 2. perkiraan untuk standar deviasi (s.d. peningkatan) 3. perkiraan probabilitas bahwa sebuah uji dari kategori ini akan memiliki efek positif 4. perkiraan proporsi konverter situs yang biasanya dipengaruhi oleh eksperimen dari kategori ini (dampak median). 5. berapa banyak eksperimen yang dimasukkan dalam analisis dari perlakuan ini.
Meskipun kami percaya ini adalah analisis paling komprehensif dari jenis ini yang pernah dilakukan hingga saat ini, masih ada ketidakpastian yang cukup besar mengenai efek beberapa perlakuan. Mereka yang nyaman dengan interval kepercayaan/interval kredibel mungkin akan menemukan tabel di lampiran A lebih informatif. Kami juga telah menyediakan tabel setara untuk efek perlakuan ini pada tingkat konversi dan pendapatan per konverter di bagian tersebut.

2.2.1 Definisi kategori

abandonment: perlakuan yang bertujuan untuk membujuk pengguna agar tidak meninggalkan situs setelah menunjukkan perilaku pengabaian.
kembali ke atas: sebuah tombol yang digunakan untuk membawa pengguna ke bagian atas halaman, biasanya digunakan pada perangkat mobile di halaman kategori yang lebih panjang.
banner: perlakuan yang mengubah atau menambahkan banner di situs.
tombol: perlakuan apa pun yang melibatkan tombol.
ajakan bertindak: mengubah kata-kata pada salinan di halaman agar lebih sugestif, misalnya mengubah ‘hubungi kami’ menjadi ‘dapatkan penawaran’.
warna: setiap perlakuan yang melibatkan perubahan warna elemen di halaman.
perubahan pengaturan default: mengubah pengaturan default dari fungsi situs. Sering ditemukan di halaman daftar.
filter: perlakuan yang berinteraksi dengan filter kategori seperti ukuran, warna, tujuan, dll.
pengiriman gratis: perlakuan yang menawarkan atau menyampaikan pengiriman gratis.
gambar: pengujian yang melibatkan gambar di situs web.
halaman arahan: perlakuan yang hanya dipicu pada halaman pertama perjalanan pengguna.
navigasi seluler: mengubah struktur navigasi untuk perangkat seluler.
pencarian seluler: perlakuan kotak pencarian, atau perubahan pada hasil kueri pencarian di situs seluler.
navigasi: mengubah struktur navigasi pada sebuah situs web.
nudges dan petunjuk: pengujian yang menambahkan petunjuk tambahan atau ‘tool tips’ untuk menarik perhatian pengguna pada sebuah fitur.
redesain halaman: perubahan kosmetik signifikan yang biasanya melibatkan beberapa elemen pada sebuah halaman.
popup: menggunakan gambar atau pesan yang muncul secara tiba-tiba di layar.
penandaan produk: menambahkan lencana pada produk tertentu untuk memberikan informasi tambahan kepada pengguna (bukan penunjuk stok).
rekomendasi produk: perlakuan yang merekomendasikan produk alternatif kepada pengguna.
mengubah ukuran elemen: mengubah dimensi suatu elemen.
kelangkaan: perlakuan yang menyoroti barang yang stoknya rendah, hampir selalu dengan menggunakan ‘penunjuk stok’.
pencarian: perlakuan yang berfokus pada kotak pencarian, atau perubahan pada hasil kueri pencarian di situs.
bukti sosial: perlakuan yang memanfaatkan perilaku pengguna lain untuk memberikan informasi tentang produk yang sedang tren dan barang yang populer saat ini.
navigasi lengket: perlakuan yang menciptakan navigasi yang persisten atau lengket.
upsell: perlakuan yang mencoba membujuk pengguna untuk meningkatkan nilai moneter keranjang mereka.
urgensi: perlakuan yang menggunakan batas waktu untuk mendorong urgensi menyelesaikan suatu tindakan sebelum tenggat waktu, hampir selalu diterapkan menggunakan penghitung waktu mundur.
lihat semua: perlakuan yang secara default menampilkan semua produk yang tersedia di halaman daftar produk.
cuaca: mengubah konten berdasarkan cuaca di lokasi pengguna.
pesan sambutan: perlakuan yang menggunakan pesan/halaman sambutan untuk memperkenalkan pengguna ke situs.

2.2.2 Hasil pada RPV berdasarkan kategori

perlakuan rata-rata peningkatan simpangan baku peningkatan probabilitas peningkatan dampak median jumlah perlakuan
kelangkaan 2.9% 2.8% 84% 38% 125
bukti sosial 2.3% 2.5% 82% 63% 119
urgensi 1.5% 2.8% 70% 36% 119
pengabaian 1.1% 1.9% 71% 18% 105
rekomendasi produk 0.4% 0.5% 76% 74% 119
pesan sambutan 0.2% 0.6% 64% 44% 78
desain ulang halaman 0.2% 0.9% 59% 67% 83
spanduk 0.1% 0.3% 63% 44% 212
popup 0.0% 2.0% 50% 34% 91
warna 0.0% 0.4% 49% 81% 81
dorongan dan petunjuk -0.0% 0.3% 48% 44% 105
mengubah ukuran elemen -0.0% 1.1% 49% 85% 36
filter -0.0% 0.9% 48% 57% 126
penjualan tambahan -0.1% 0.6% 41% 49% 99
penandaan produk -0.2% 0.8% 42% 64% 39
tombol -0.2% 0.4% 33% 75% 197
gambar -0.2% 0.4% 34% 40% 105
pengiriman gratis -0.2% 1.3% 44% 50% 65
navigasi -0.2% 0.7% 35% 62% 216
pencarian -0.2% 0.3% 20% 60% 219
perubahan pengaturan default -0.2% 2.0% 45% 50% 58
halaman arahan -0.3% 0.9% 36% 39% 55
ajakan bertindak -0.3% 0.5% 24% 71% 172
kembali ke atas -0.4% 0.3% 12% 78% 54
lihat semua -0.7% 2.2% 36% 34% 30
navigasi lengket -0.7% 1.7% 32% 45% 40
pencarian seluler -1.0% 0.5% 5% 33% 30
cuaca -1.1% 0.9% 13% 43% 27
navigasi seluler -1.7% 1.9% 17% 30% 33
treatment uplift mean uplift s.d. uplift probability median impact number of treatments scarcity 2.9% 2.8% 84% 38% 125 social proof 2.3% 2.5% 82% 63% 119 urgency 1.5% 2.8% 70% 36% 119 abandonment 1.1% 1.9% 71% 18% 105 product recommendations 0.4% 0.5% 76% 74% 119 welcome message 0.2% 0.6% 64% 44% 78 page redesign 0.2% 0.9% 59% 67% 83 banner 0.1% 0.3% 63% 44% 212 popup 0.0% 2.0% 50% 34% 91 colour 0.0% 0.4% 49% 81% 81 nudges and pointers -0.0% 0.3% 48% 44% 105 resizing elements -0.0% 1.1% 49% 85% 36 filters -0.0% 0.9% 48% 57% 126 upsell -0.1% 0.6% 41% 49% 99 product badging -0.2% 0.8% 42% 64% 39 buttons -0.2% 0.4% 33% 75% 197 image -0.2% 0.4% 34% 40% 105 free delivery -0.2% 1.3% 44% 50% 65 navigation -0.2% 0.7% 35% 62% 216 search -0.2% 0.3% 20% 60% 219 default setting changes -0.2% 2.0% 45% 50% 58 landing page -0.3% 0.9% 36% 39% 55 calls to action -0.3% 0.5% 24% 71% 172 back to top -0.4% 0.3% 12% 78% 54 view all -0.7% 2.2% 36% 34% 30 sticky navigation -0.7% 1.7% 32% 45% 40 mobile search -1.0% 0.5% 5% 33% 30 weather -1.1% 0.9% 13% 43% 27 mobile navigation -1.7% 1.9% 17% 30% 33| treatment | uplift mean | uplift s.d. | uplift probability | median impact | number of treatments | | :--- | :--- | :--- | :--- | :--- | :--- | | scarcity | 2.9% | 2.8% | 84% | 38% | 125 | | social proof | 2.3% | 2.5% | 82% | 63% | 119 | | urgency | 1.5% | 2.8% | 70% | 36% | 119 | | abandonment | 1.1% | 1.9% | 71% | 18% | 105 | | product recommendations | 0.4% | 0.5% | 76% | 74% | 119 | | welcome message | 0.2% | 0.6% | 64% | 44% | 78 | | page redesign | 0.2% | 0.9% | 59% | 67% | 83 | | banner | 0.1% | 0.3% | 63% | 44% | 212 | | popup | 0.0% | 2.0% | 50% | 34% | 91 | | colour | 0.0% | 0.4% | 49% | 81% | 81 | | nudges and pointers | -0.0% | 0.3% | 48% | 44% | 105 | | resizing elements | -0.0% | 1.1% | 49% | 85% | 36 | | filters | -0.0% | 0.9% | 48% | 57% | 126 | | upsell | -0.1% | 0.6% | 41% | 49% | 99 | | product badging | -0.2% | 0.8% | 42% | 64% | 39 | | buttons | -0.2% | 0.4% | 33% | 75% | 197 | | image | -0.2% | 0.4% | 34% | 40% | 105 | | free delivery | -0.2% | 1.3% | 44% | 50% | 65 | | navigation | -0.2% | 0.7% | 35% | 62% | 216 | | search | -0.2% | 0.3% | 20% | 60% | 219 | | default setting changes | -0.2% | 2.0% | 45% | 50% | 58 | | landing page | -0.3% | 0.9% | 36% | 39% | 55 | | calls to action | -0.3% | 0.5% | 24% | 71% | 172 | | back to top | -0.4% | 0.3% | 12% | 78% | 54 | | view all | -0.7% | 2.2% | 36% | 34% | 30 | | sticky navigation | -0.7% | 1.7% | 32% | 45% | 40 | | mobile search | -1.0% | 0.5% | 5% | 33% | 30 | | weather | -1.1% | 0.9% | 13% | 43% | 27 | | mobile navigation | -1.7% | 1.9% | 17% | 30% | 33 |

2.2.3 Kategori menarik

Pemenang terbesar dari analisis kami semuanya memiliki dasar dalam psikologi perilaku seperti kelangkaan, bukti sosial, urgensi, dan dalam tingkat yang lebih rendah, pemulihan pengabaian (lihat misalnya [2], [5]). Kami berpendapat bahwa perubahan ini mengubah persepsi pengguna terhadap nilai produk. Tujuan dari pekerjaan di masa depan adalah untuk menyelidiki bagaimana data tentang pengguna dapat digunakan untuk meningkatkan efektivitas pendekatan ini.
Hal lain yang jelas dari tabel adalah bahwa perubahan kosmetik, seperti mengubah warna tombol, tidak merupakan strategi efektif untuk meningkatkan pendapatan. Jenis perubahan ini populer dalam pengujian A / B A / B A//B\mathrm{A} / \mathrm{B} e-commerce, karena sering kali mudah diterapkan dengan editor visual tanpa memerlukan pengembang. Ada beberapa contoh terkenal dari perubahan ini yang berhasil, misalnya ketika Google menjalankan percobaan untuk menentukan warna mana, dari 40 nuansa biru, yang akan digunakan untuk hyperlink di halaman hasil pencarian mereka [8]. Namun, kami menemukan bahwa kemungkinan perubahan UI sederhana ini memiliki dampak signifikan pada pendapatan sangat rendah. Kami merekomendasikan memilih desain dan mempertahankannya berdasarkan preferensi atau melalui proses kualitatif.
Personalisasi adalah prioritas bagi bisnis online. Namun, mengembangkan upaya yang diperlukan untuk menerapkan strategi personalisasi bisa menjadi sulit. Dalam analisis ini kami memasukkan perlakuan yang dapat diotomatisasi berdasarkan konteks pengunjung dan perilaku di situs: pengabaian, rekomendasi produk, bukti sosial, kelangkaan, cuaca, dan urgensi. Di Qubit kami menyebut ini sebagai ‘Pengalaman Programatik’. Dari analisis ini jelas bahwa perlakuan tersebut tidak sama efektifnya.
Dapat diklaim bahwa efek negatif untuk beberapa perlakuan (misalnya pencarian mobile) bukan disebabkan oleh perlakuan itu sendiri, melainkan oleh implementasi yang buruk, misalnya menambahkan flicker pada halaman. Meskipun kami menganggap ini adalah poin yang valid, kami juga berpikir bahwa penting untuk mengetahui jenis perubahan apa yang berpotensi memiliki jebakan ini, karena tampaknya berisiko, sehingga harus diimplementasikan dengan lebih hati-hati, jika memang harus dilakukan.
Simpangan baku dari perlakuan juga penting untuk diingat. Sementara beberapa perlakuan, misalnya warna, rata-rata bersifat netral dan menunjukkan varians yang sangat kecil, yang lain seperti popup lebih bervariasi, menunjukkan bahwa mereka kadang-kadang dapat menghasilkan dampak yang berarti (positif dan negatif). Dalam tabel kami juga menyertakan skor dampak. Untuk setiap pengujian, kami mengukur berapa banyak konverter yang ada dalam setiap pengujian selama hari-hari penuh saat pengujian berlangsung, dan membagi dengan total jumlah konverter selama periode waktu yang sama, serta memberikan median dari distribusi ini. Kolom ini terutama untuk mengingatkan pembaca bahwa peningkatan pendapatan dalam sebuah eksperimen tidak selalu berdampak pada semua pengguna di situs, dan untuk memberikan gambaran (sangat) kasar tentang seberapa besar perbedaan ini kemungkinan terjadi.

2.2.4 Tingkat konversi vs. pendapatan per konverter

Ada dua cara perubahan situs web dapat memengaruhi pendapatan, yaitu dengan mengubah proporsi pengunjung yang melakukan konversi yaitu tingkat konversi (CR), atau dengan mengubah jumlah uang yang dibelanjakan setiap konverter; ‘pendapatan per konverter’ (RPC).
Salah satu temuan dari analisis ini adalah bahwa peningkatan RPC tampaknya jauh lebih netral secara keseluruhan dibandingkan dengan peningkatan tingkat konversi, baik dari segi besarnya peningkatan maupun varians antar eksperimen (lihat lampiran A.2 dan A.3). Ada beberapa pengecualian - misalnya perubahan yang dirancang untuk upsell pelanggan, bukti sosial, dan rekomendasi produk tampaknya secara konsisten positif terhadap RPC, sedangkan pemulihan pengabaian sering kali tampak negatif (tidak mengherankan karena biasanya pesan pengabaian menawarkan diskon sebagai insentif bagi pengguna untuk melakukan konversi).

3 Distribusi semua eksperimen

Selain mengukur dampak dari kategori individu, kami juga ingin menemukan distribusi yang menggambarkan peningkatan dari semua tes 6700 A / B 6700 A / B 6700A//B6700 \mathrm{~A} / \mathrm{B} .

3.1 Metodologi

Kami menggunakan estimator kepadatan kernel untuk memperkirakan distribusi dari semua tes A / B A / B A//B\mathrm{A} / \mathrm{B} . Kesalahan pengukuran untuk tes A / B A / B A//B\mathrm{A} / \mathrm{B} setara dengan menambahkan banyak filter konvolusi ke fungsi ini
Gambar 3.1: Perkiraan efek keseluruhan dari semua tes A / B A / B A//B\mathrm{A} / \mathrm{B}
yang membuat ini menjadi masalah. Ini adalah contoh dari ‘masalah dekonvolusi’ (lihat misalnya [1]), yang telah banyak dipelajari. Di sini kami berada dalam rezim di mana kesalahan pengukuran bersifat heteroskedastik, tetapi diketahui. Kami menggunakan paket R deconv [12] untuk memodelkan ini.
Masalah dekonvolusi terkenal sangat sulit, dan di sini kesalahan pengukuran cukup besar. Oleh karena itu grafik-grafik ini harus dianggap hanya sebagai indikasi kasar dari sebaran peningkatan tes daripada dipandang sebagai model yang akurat.

3.2 Hasil dan diskusi

Kami menghitung grafik untuk distribusi semua A / B A / B A//B\mathrm{A} / \mathrm{B} tes pada pendapatan per pengunjung (RPV) dan tingkat konversi (CR) dalam gambar 3.1. Kami telah menandai persentil 5 % 5 % 5%5 \% dan 95 % 95 % 95%95 \% dengan garis vertikal. Kami melihat bahwa mayoritas besar eksperimen memiliki efek yang sangat rendah, distribusinya kira-kira menyerupai distribusi normal, tetapi dengan ekor yang dangkal. Ini memberikan beberapa kesesuaian kasar dengan hukum Sturgeon: ’ 90 % 90 % 90%90 \% dari segala sesuatu adalah sampah’.
Sebagian besar perlakuan yang kami ukur cenderung berada dalam rentang [ 1 % , 1 % 1 % , 1 % -1%,1%-1 \%, 1 \% ] untuk peningkatan. Untuk secara andal dan yakin mendeteksi peningkatan sebesar 1 % 1 % 1%1 \% hanya pada tingkat konversi diperlukan sekitar 120.000 konverter (pengunjung yang melakukan pembelian) di setiap varian termasuk kontrol. Untuk peningkatan pendapatan, diperlukan lebih banyak. Kami akan merinci bagaimana angka ini diperoleh dalam lampiran B. Hanya sebagian kecil perusahaan yang memiliki lalu lintas cukup untuk mengukur peningkatan sebesar ini dalam jangka waktu yang realistis.

4 Agregasi pendapatan tambahan di seluruh domain

Banyak bisnis bereksperimen terutama untuk mempelajari jenis perubahan apa yang berdampak positif pada situs web mereka. Mereka mungkin meningkatkan pendapatan melalui proses eksperimen, tetapi hanya jika strategi eksperimen mereka menemukan lebih banyak efek positif daripada negatif. Kami bertujuan untuk mengukur jenis dampak yang dimiliki kampanye pengujian A / B A / B A//B\mathrm{A} / \mathrm{B} terhadap pendapatan perusahaan-perusahaan ini.

4.1 Metodologi

Kami memulai dengan eksperimen yang ditemukan dari bagian 2.1.2, ada beberapa kriteria tambahan yang digunakan untuk bagian ini.
Data perlakuan diperoleh antara 2016-10-01 dan 2017-03-31 untuk memberikan perkiraan terbaru tentang efek yang diharapkan saat ini. Kami mengecualikan eksperimen yang tidak dibangun oleh tim layanan profesional Qubit, untuk membatasi analisis ini pada tim yang telah mendapatkan manfaat dari analisis sebelumnya dari jenis yang dijelaskan dalam makalah ini. Kami hanya memasukkan bisnis yang memiliki setidaknya 25 ribu konverter dalam 6 bulan yang dianalisis.
Seperti yang terungkap dalam hasil kategorisasi, sangat sedikit eksperimen yang memiliki dampak bermakna pada RPV. Karena kami menggabungkan eksperimen dalam analisis ini, kami bertujuan untuk meminimalkan efek penggabungan banyak pengukuran yang tidak pasti dengan peningkatan nol. Untuk mengatasi masalah ini tanpa memihak data set ke arah mana pun, kami hanya memasukkan eksperimen yang memiliki probabilitas peningkatan yang dihitung di atas 0,9 atau di bawah 0,1.
Ada tim validasi khusus di Qubit yang secara berkala mencocokkan data klien sendiri dengan data yang kami rekam. Namun, dalam kasus ini, kami secara independen memverifikasi kesesuaian eksperimen ini menggunakan data Google Analytics (jika tersedia) dan tidak menggunakan klien mana pun yang data dari Google Analytics-nya berbeda dari pengamatan kami lebih dari 15 % 15 % 15%15 \% dari pendapatan yang diamati atau untuk yang kami tidak memiliki akses ke Google Analytics.
Hasil pada gambar 4.1 dihitung dengan menerapkan estimasi peningkatan dan varians yang terkait dengan peningkatan ini pada pendapatan per pengunjung yang diamati dalam kelompok kontrol. Ini memberikan jumlah pendapatan tambahan per eksperimen.
Pendapatan tambahan yang diharapkan per properti dihitung dengan menjumlahkan pendapatan tambahan per eksperimen. Ketidakpastian yang terkait dengan ukuran ini dipropagasi dengan menjumlahkan varians yang terkait dengan eksperimen-eksperimen tersebut.
Estimasi dampak proporsional terhadap pendapatan dihitung dengan membagi estimasi total pendapatan tambahan dengan total pendapatan yang diamati untuk domain tersebut selama periode analisis. Ketidakpastian yang terkait dengan pengukuran ini dihitung dengan cara yang sama dengan menskalakan deviasi standar. Kami menampilkan rata-rata peningkatan proporsional dengan sebuah titik, serta persentil ke-2,5 dan ke-97,5 sebagai batang kesalahan.

4.2 Hasil dan diskusi

Dalam gambar 4.1 kami mengamati bisnis yang tidak melihat peningkatan proporsional yang signifikan dalam pendapatan situs secara keseluruhan melalui eksperimen. Namun, beberapa bisnis menerima peningkatan lebih dari 5 % 5 % 5%5 \% melalui strategi personalisasi dan eksperimen. Efek keseluruhan adalah positif.
Gambar 4.1: Perkiraan distribusi dampak proporsional dari kampanye eksperimen terhadap total pendapatan situs untuk 50 domain selama 6 bulan.

5 Kesimpulan

Dalam beberapa hal, analisis ini mungkin menjadi bacaan yang mengejutkan bagi para praktisi yang mencoba meningkatkan pendapatan melalui eksperimen online. Dari 29 kategori perlakuan umum yang termasuk dalam makalah ini, hanya 8 yang memiliki probabilitas lebih besar dari 50 % 50 % 50%50 \% untuk memberikan dampak positif pada pendapatan per pengunjung. Kami menemukan sedikit bukti bahwa satu perlakuan tunggal dapat menyebabkan peningkatan pendapatan dua digit seperti yang kita lihat dalam studi kasus dan materi pemasaran. Ini bukan berarti kami melihat eksperimen sebagai pemborosan sumber daya, bagian 4.2 menunjukkan bahwa ada potensi keuntungan signifikan yang tersedia murni melalui eksperimen. Secara mendasar kami percaya
bahwa pembelajaran melalui eksperimen yang dirancang dengan baik adalah alat paling kuat untuk memahami apa yang menyebabkan perubahan terukur dalam pendapatan dan ukuran keberhasilan lainnya.

5.1 Pekerjaan Masa Depan

Setelah analisis ini, kami ingin memeriksa beberapa kategori secara lebih rinci. Misalnya - apakah menambahkan insentif diskon mengubah seberapa baik pesan pengabaian akan berfungsi, atau apakah urgensi menyebabkan efek yang berbeda berdasarkan untuk apa urgensi tersebut (misalnya menghitung mundur ke penjualan, menghitung mundur ke tenggat pengiriman)? Beberapa analisis awal telah menunjukkan bahwa ini memang terjadi, tetapi jumlah tes terlalu sedikit untuk kami menyimpulkan sesuatu yang pasti.

Ucapan Terima Kasih

Makalah ini adalah hasil dari bertahun-tahun kerja yang dilakukan oleh banyak orang di Qubit, yang jumlahnya terlalu banyak untuk disebutkan satu per satu.
Versi prototipikal dari analisis ini yang dilakukan di Qubit sudah ada sejak tahun 2013, pertama kali dilakukan oleh Martin Goodson, dan kemudian oleh Adam Davison dan para penulis. Model statistik ini dirancang oleh Martin Goodson dan Adam Davison.
Analisis ini tidak akan mungkin dilakukan tanpa puluhan ribu jam kerja yang dilakukan oleh tim layanan profesional Qubit dan klien-kliennya. Kami juga ingin mengucapkan terima kasih kepada semua orang di Qubit yang terlibat dalam analisis ini dalam bentuk apapun, terutama Jeremy Mitchell, Matthew Tamsett, Bud Goswami, Sally Zhen, Alan Clarke, Jad Sassine, Graham Cooke, Jay McCarthy, Geri Tuneva. Kami juga dengan senang hati mengucapkan terima kasih kepada tim di PwC atas antusiasme dan kerja keras mereka dalam memastikan metodologi kami.

Referensi

[1] Delaigle, Aurore, Alexander Meister. “Density estimation with heteroscedastic error.” Bernoulli (2008): 562-579. 2008
[2] Devumi., “Menggunakan Bukti Sosial untuk Kesuksesan Digital Anda”, https://devumi.com/social-proof-in-digital-success/ 2015.
[3] Gelman, A., “Distribusi prior untuk parameter varians dalam model hierarkis”, Bayesian Anal. 1, no. 3, 515. 2006.
[4] Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B, Vehtari, A., Rubin, D.B. “Bayesian Data Analysis: Edisi Ketiga”, Taylor & Francis, 2013.
[5] Gupta, S. “Efek Psikologis dari Persepsi Kelangkaan terhadap Perilaku Pembelian Konsumen.”, Disertasi Ph.D., University of Nebraska, 2013
[6] Gelman, A., Rubin, D.B. “Inferensi dari Simulasi Iteratif Menggunakan Beberapa Urutan”, Statistical Science 7: 457511., 1992.
[7] Goodson, M. “Sebagian Besar Hasil Tes A/B yang Menang adalah Ilusi” http://www.qubit.com/ sites/default/files/pdf/mostwinningabtestresultsareillusory_0.pdf 2013.
[8] Holson, L.M., “Memberikan Wajah yang Lebih Berani pada Google”, New York Times, 28 Feb. 2009.
[9] Rubin, D. B., “Bootstrap Bayesian”, Annals of Statistics, 9. 130. 1981.
[10] Spiegelhalter D.J., Best, N. G., Carlin, B. P., van der Linde, A. “Bayesian measures of model complexity and fit (with discussion)”, Journal of the Royal Statistical Society, Series B. 64 (4): 583639., 2002.
[11] Stucchio, C., “Bayesian A/B Testing at VWO”, https://cdn2.hubspot.net/ hubfs/310840/VWO_SmartStats_technical_whitepaper.pdf 2015.
[12] Wang, X. F., Wang, B. “Deconvolution estimation in measurement error models: the R package decon.” Journal of statistical software, 39(10)., 2011.

Lampiran

Tabel hasil rinci

Dalam bagian ini kami menyajikan tabel hasil rinci untuk peningkatan rata-rata pendapatan per pengunjung (RPV), tingkat konversi (CR), dan pendapatan per konverter (RPC). Selain memberikan estimasi titik untuk rata-rata dan deviasi standar, kami juga memberikan interval kredibel lebar minimum yang mencakup 95 % 95 % 95%95 \% dari massa probabilitas.
Perlu dicatat bahwa meskipun untuk eksperimen individu, kita memiliki RPV = CR RPC RPV = CR RPC RPV=CR*RPC\mathrm{RPV}=\mathrm{CR} \cdot \mathrm{RPC} , karena tabel-tabel ini didasarkan pada agregat, tidak perlu terkejut jika hasilnya sedikit menyimpang dari ini saat melihat keseluruhan kategori.

A.1 Hasil pendapatan per pengunjung

perlakuan rata-rata peningkatan CI rata-rata peningkatan (%) simpangan baku peningkatan peningkatan s.d. CI (%) probabilitas peningkatan
kelangkaan 2.9% ( 2.3, 3.6) 2.8% ( 2.2, 3.6) 84%
bukti sosial 2.3% ( 1.7, 2.9) 2.5% ( 2.0, 3.1) 82%
urgensi 1.5% ( 0.7, 2.3) 2.8% ( 2.0, 3.7) 70%
peninggalan 1.1% ( 0.4, 1.7) 1.9% ( 1.3, 2.6) 71%
rekomendasi produk 0.4% ( 0.1, 0.7) 0.5% ( 0.1, 1.0) 76%
pesan sambutan 0.2% (-0.4, 0.8) 0.6% ( 0.0, 1.3) 64%
redesain halaman 0.2% (-0.3, 0.7) 0.9% ( 0.2, 1.7) 59%
spanduk 0.1% (-0.2, 0.4) 0.3% ( 0.0, 0.7) 63%
popup 0.0% (-0.7, 0.8) 2.0% ( 1.1, 2.9) 50%
warna 0.0% (-0.5, 0.6) 0.4% ( 0.0, 0.9) 49%
dorongan dan petunjuk -0.0% (-0.3, 0.3) 0.3% ( 0.0, 0.7) 48%
mengubah ukuran elemen -0.0% (-0.8, 0.8) 1.1% ( 0.0, 2.0) 49%
filter -0.0% (-0.4, 0.4) 0.9% ( 0.5, 1.4) 48%
penjualan tambahan -0.1% (-0.5, 0.3) 0.6% ( 0.0, 1.2) 41%
penandaan produk -0.2% (-1.0, 0.7) 0.8% ( 0.0, 1.8) 42%
tombol -0.2% (-0.4, 0.1) 0.4% ( 0.0, 0.8) 33%
gambar -0.2% (-0.6, 0.2) 0.4% ( 0.0, 1.0) 34%
pengiriman gratis -0.2% (-0.8, 0.4) 1.3% ( 0.6, 2.0) 44%
navigasi -0.2% (-0.5, 0.1) 0.7% ( 0.0, 1.2) 35%
pencarian -0.2% (-0.5, 0.1) 0.3% ( 0.0, 0.7) 20%
perubahan pengaturan default -0.2% (-1.1, 0.6) 2.0% ( 1.3, 2.8) 45%
halaman arahan -0.3% (-0.9, 0.3) 0.9% ( 0.1, 1.6) 36%
ajakan bertindak -0.3% (-0.6, 0.0) 0.5% ( 0.0, 0.9) 24%
kembali ke atas -0.4% (-0.8, -0.0) 0.3% ( 0.0, 0.7) 12%
lihat semua -0.7% (-2.0, 0.5) 2.2% ( 0.7, 3.6) 36%
navigasi lengket -0.7% (-1.7, 0.2) 1.7% ( 0.1, 3.0) 32%
pencarian seluler -1.0% (-1.7, -0.3) 0.5% ( 0.0, 1.1) 5%
cuaca -1.1% (-2.1, -0.0) 0.9% ( 0.0, 2.1) 13%
navigasi seluler -1.7% (-2.9, -0.5) 1.9% ( 0.1, 3.3) 17%
treatment uplift mean uplift mean CI (%) uplift s.d. uplift s.d. CI (%) uplift probability scarcity 2.9% ( 2.3, 3.6) 2.8% ( 2.2, 3.6) 84% social proof 2.3% ( 1.7, 2.9) 2.5% ( 2.0, 3.1) 82% urgency 1.5% ( 0.7, 2.3) 2.8% ( 2.0, 3.7) 70% abandonment 1.1% ( 0.4, 1.7) 1.9% ( 1.3, 2.6) 71% product recommendations 0.4% ( 0.1, 0.7) 0.5% ( 0.1, 1.0) 76% welcome message 0.2% (-0.4, 0.8) 0.6% ( 0.0, 1.3) 64% page redesign 0.2% (-0.3, 0.7) 0.9% ( 0.2, 1.7) 59% banner 0.1% (-0.2, 0.4) 0.3% ( 0.0, 0.7) 63% popup 0.0% (-0.7, 0.8) 2.0% ( 1.1, 2.9) 50% colour 0.0% (-0.5, 0.6) 0.4% ( 0.0, 0.9) 49% nudges and pointers -0.0% (-0.3, 0.3) 0.3% ( 0.0, 0.7) 48% resizing elements -0.0% (-0.8, 0.8) 1.1% ( 0.0, 2.0) 49% filters -0.0% (-0.4, 0.4) 0.9% ( 0.5, 1.4) 48% upsell -0.1% (-0.5, 0.3) 0.6% ( 0.0, 1.2) 41% product badging -0.2% (-1.0, 0.7) 0.8% ( 0.0, 1.8) 42% buttons -0.2% (-0.4, 0.1) 0.4% ( 0.0, 0.8) 33% image -0.2% (-0.6, 0.2) 0.4% ( 0.0, 1.0) 34% free delivery -0.2% (-0.8, 0.4) 1.3% ( 0.6, 2.0) 44% navigation -0.2% (-0.5, 0.1) 0.7% ( 0.0, 1.2) 35% search -0.2% (-0.5, 0.1) 0.3% ( 0.0, 0.7) 20% default setting changes -0.2% (-1.1, 0.6) 2.0% ( 1.3, 2.8) 45% landing page -0.3% (-0.9, 0.3) 0.9% ( 0.1, 1.6) 36% calls to action -0.3% (-0.6, 0.0) 0.5% ( 0.0, 0.9) 24% back to top -0.4% (-0.8, -0.0) 0.3% ( 0.0, 0.7) 12% view all -0.7% (-2.0, 0.5) 2.2% ( 0.7, 3.6) 36% sticky navigation -0.7% (-1.7, 0.2) 1.7% ( 0.1, 3.0) 32% mobile search -1.0% (-1.7, -0.3) 0.5% ( 0.0, 1.1) 5% weather -1.1% (-2.1, -0.0) 0.9% ( 0.0, 2.1) 13% mobile navigation -1.7% (-2.9, -0.5) 1.9% ( 0.1, 3.3) 17%| treatment | uplift mean | uplift mean CI (%) | uplift s.d. | uplift s.d. CI (%) | uplift probability | | :--- | :--- | :--- | :--- | :--- | :--- | | scarcity | 2.9% | ( 2.3, 3.6) | 2.8% | ( 2.2, 3.6) | 84% | | social proof | 2.3% | ( 1.7, 2.9) | 2.5% | ( 2.0, 3.1) | 82% | | urgency | 1.5% | ( 0.7, 2.3) | 2.8% | ( 2.0, 3.7) | 70% | | abandonment | 1.1% | ( 0.4, 1.7) | 1.9% | ( 1.3, 2.6) | 71% | | product recommendations | 0.4% | ( 0.1, 0.7) | 0.5% | ( 0.1, 1.0) | 76% | | welcome message | 0.2% | (-0.4, 0.8) | 0.6% | ( 0.0, 1.3) | 64% | | page redesign | 0.2% | (-0.3, 0.7) | 0.9% | ( 0.2, 1.7) | 59% | | banner | 0.1% | (-0.2, 0.4) | 0.3% | ( 0.0, 0.7) | 63% | | popup | 0.0% | (-0.7, 0.8) | 2.0% | ( 1.1, 2.9) | 50% | | colour | 0.0% | (-0.5, 0.6) | 0.4% | ( 0.0, 0.9) | 49% | | nudges and pointers | -0.0% | (-0.3, 0.3) | 0.3% | ( 0.0, 0.7) | 48% | | resizing elements | -0.0% | (-0.8, 0.8) | 1.1% | ( 0.0, 2.0) | 49% | | filters | -0.0% | (-0.4, 0.4) | 0.9% | ( 0.5, 1.4) | 48% | | upsell | -0.1% | (-0.5, 0.3) | 0.6% | ( 0.0, 1.2) | 41% | | product badging | -0.2% | (-1.0, 0.7) | 0.8% | ( 0.0, 1.8) | 42% | | buttons | -0.2% | (-0.4, 0.1) | 0.4% | ( 0.0, 0.8) | 33% | | image | -0.2% | (-0.6, 0.2) | 0.4% | ( 0.0, 1.0) | 34% | | free delivery | -0.2% | (-0.8, 0.4) | 1.3% | ( 0.6, 2.0) | 44% | | navigation | -0.2% | (-0.5, 0.1) | 0.7% | ( 0.0, 1.2) | 35% | | search | -0.2% | (-0.5, 0.1) | 0.3% | ( 0.0, 0.7) | 20% | | default setting changes | -0.2% | (-1.1, 0.6) | 2.0% | ( 1.3, 2.8) | 45% | | landing page | -0.3% | (-0.9, 0.3) | 0.9% | ( 0.1, 1.6) | 36% | | calls to action | -0.3% | (-0.6, 0.0) | 0.5% | ( 0.0, 0.9) | 24% | | back to top | -0.4% | (-0.8, -0.0) | 0.3% | ( 0.0, 0.7) | 12% | | view all | -0.7% | (-2.0, 0.5) | 2.2% | ( 0.7, 3.6) | 36% | | sticky navigation | -0.7% | (-1.7, 0.2) | 1.7% | ( 0.1, 3.0) | 32% | | mobile search | -1.0% | (-1.7, -0.3) | 0.5% | ( 0.0, 1.1) | 5% | | weather | -1.1% | (-2.1, -0.0) | 0.9% | ( 0.0, 2.1) | 13% | | mobile navigation | -1.7% | (-2.9, -0.5) | 1.9% | ( 0.1, 3.3) | 17% |

A. 2 Hasil tingkat konversi

perlakuan rata-rata peningkatan CI rata-rata peningkatan (%) peningkatan s.d. peningkatan s.d. CI (%) probabilitas peningkatan
kelangkaan 2.9% ( 2.3, 3.5) 2.9% ( 2.4, 3.5) 83%
bukti sosial 1.9% ( 1.4, 2.4) 2.2% ( 1.8, 2.6) 79%
pengabaian 1.6% ( 1.1, 2.0) 1.8% ( 1.4, 2.3) 80%
urgensi 1.5% ( 0.9, 2.1) 2.3% ( 1.8, 2.9) 74%
pesan sambutan 0.5% (-0.2, 1.3) 2.7% ( 2.0, 3.6) 57%
mengubah ukuran elemen 0.2% (-0.3, 0.8) 1.1% ( 0.5, 1.7) 59%
penandaan produk 0.2% (-0.3, 0.7) 0.4% ( 0.0, 1.0) 69%
desain ulang halaman 0.1% (-0.2, 0.4) 0.6% ( 0.2, 1.0) 59%
rekomendasi produk 0.0% (-0.2, 0.2) 0.4% ( 0.2, 0.7) 52%
pengiriman gratis 0.0% (-0.5, 0.5) 1.4% ( 1.0, 1.9) 50%
tombol -0.0% (-0.2, 0.1) 0.3% ( 0.0, 0.6) 46%
spanduk -0.1% (-0.2, 0.0) 0.1% ( 0.0, 0.2) 24%
perubahan pengaturan default -0.1% (-0.7, 0.5) 1.5% ( 1.1, 2.0) 47%
filter -0.1% (-0.3, 0.1) 0.6% ( 0.3, 0.8) 42%
navigasi -0.1% (-0.3, 0.1) 0.2% ( 0.0, 0.5) 29%
gambar -0.2% (-0.5, 0.1) 0.7% ( 0.3, 1.1) 40%
popup -0.2% (-0.6, 0.3) 1.6% ( 1.0, 2.2) 45%
kembali ke atas -0.2% (-0.4, 0.1) 0.3% ( 0.0, 0.6) 24%
warna -0.2% (-0.5, 0.1) 0.3% ( 0.0, 0.7) 28%
ajakan bertindak -0.2% (-0.4, 0.0) 0.5% ( 0.3, 0.7) 35%
upsell -0.3% (-0.5, -0.0) 0.3% ( 0.0, 0.6) 19%
pencarian -0.3% (-0.5, -0.1) 0.2% ( 0.0, 0.5) 13%
halaman arahan -0.3% (-0.8, 0.1) 0.9% ( 0.3, 1.7) 36%
dorongan dan petunjuk -0.3% (-0.8, 0.1) 1.7% ( 1.4, 2.0) 42%
lihat semua -0.4% (-1.3, 0.5) 1.6% ( 0.6, 2.7) 40%
navigasi lengket -0.5% (-1.1, 0.0) 0.8% ( 0.0, 1.6) 23%
pencarian seluler -0.7% (-1.2, -0.2) 0.5% ( 0.0, 1.1) 10%
cuaca -1.0% (-1.8, -0.2) 1.0% ( 0.0, 2.0) 16%
navigasi seluler -1.1% (-1.9, -0.3) 1.4% ( 0.6, 2.3) 21%
treatment uplift mean uplift mean CI (%) uplift s.d. uplift s.d. CI (%) uplift probability scarcity 2.9% ( 2.3, 3.5) 2.9% ( 2.4, 3.5) 83% social proof 1.9% ( 1.4, 2.4) 2.2% ( 1.8, 2.6) 79% abandonment 1.6% ( 1.1, 2.0) 1.8% ( 1.4, 2.3) 80% urgency 1.5% ( 0.9, 2.1) 2.3% ( 1.8, 2.9) 74% welcome message 0.5% (-0.2, 1.3) 2.7% ( 2.0, 3.6) 57% resizing elements 0.2% (-0.3, 0.8) 1.1% ( 0.5, 1.7) 59% product badging 0.2% (-0.3, 0.7) 0.4% ( 0.0, 1.0) 69% page redesign 0.1% (-0.2, 0.4) 0.6% ( 0.2, 1.0) 59% product recommendations 0.0% (-0.2, 0.2) 0.4% ( 0.2, 0.7) 52% free delivery 0.0% (-0.5, 0.5) 1.4% ( 1.0, 1.9) 50% buttons -0.0% (-0.2, 0.1) 0.3% ( 0.0, 0.6) 46% banner -0.1% (-0.2, 0.0) 0.1% ( 0.0, 0.2) 24% default setting changes -0.1% (-0.7, 0.5) 1.5% ( 1.1, 2.0) 47% filters -0.1% (-0.3, 0.1) 0.6% ( 0.3, 0.8) 42% navigation -0.1% (-0.3, 0.1) 0.2% ( 0.0, 0.5) 29% image -0.2% (-0.5, 0.1) 0.7% ( 0.3, 1.1) 40% popup -0.2% (-0.6, 0.3) 1.6% ( 1.0, 2.2) 45% back to top -0.2% (-0.4, 0.1) 0.3% ( 0.0, 0.6) 24% colour -0.2% (-0.5, 0.1) 0.3% ( 0.0, 0.7) 28% calls to action -0.2% (-0.4, 0.0) 0.5% ( 0.3, 0.7) 35% upsell -0.3% (-0.5, -0.0) 0.3% ( 0.0, 0.6) 19% search -0.3% (-0.5, -0.1) 0.2% ( 0.0, 0.5) 13% landing page -0.3% (-0.8, 0.1) 0.9% ( 0.3, 1.7) 36% nudges and pointers -0.3% (-0.8, 0.1) 1.7% ( 1.4, 2.0) 42% view all -0.4% (-1.3, 0.5) 1.6% ( 0.6, 2.7) 40% sticky navigation -0.5% (-1.1, 0.0) 0.8% ( 0.0, 1.6) 23% mobile search -0.7% (-1.2, -0.2) 0.5% ( 0.0, 1.1) 10% weather -1.0% (-1.8, -0.2) 1.0% ( 0.0, 2.0) 16% mobile navigation -1.1% (-1.9, -0.3) 1.4% ( 0.6, 2.3) 21%| treatment | uplift mean | uplift mean CI (%) | uplift s.d. | uplift s.d. CI (%) | uplift probability | | :--- | :--- | :--- | :--- | :--- | :--- | | scarcity | 2.9% | ( 2.3, 3.5) | 2.9% | ( 2.4, 3.5) | 83% | | social proof | 1.9% | ( 1.4, 2.4) | 2.2% | ( 1.8, 2.6) | 79% | | abandonment | 1.6% | ( 1.1, 2.0) | 1.8% | ( 1.4, 2.3) | 80% | | urgency | 1.5% | ( 0.9, 2.1) | 2.3% | ( 1.8, 2.9) | 74% | | welcome message | 0.5% | (-0.2, 1.3) | 2.7% | ( 2.0, 3.6) | 57% | | resizing elements | 0.2% | (-0.3, 0.8) | 1.1% | ( 0.5, 1.7) | 59% | | product badging | 0.2% | (-0.3, 0.7) | 0.4% | ( 0.0, 1.0) | 69% | | page redesign | 0.1% | (-0.2, 0.4) | 0.6% | ( 0.2, 1.0) | 59% | | product recommendations | 0.0% | (-0.2, 0.2) | 0.4% | ( 0.2, 0.7) | 52% | | free delivery | 0.0% | (-0.5, 0.5) | 1.4% | ( 1.0, 1.9) | 50% | | buttons | -0.0% | (-0.2, 0.1) | 0.3% | ( 0.0, 0.6) | 46% | | banner | -0.1% | (-0.2, 0.0) | 0.1% | ( 0.0, 0.2) | 24% | | default setting changes | -0.1% | (-0.7, 0.5) | 1.5% | ( 1.1, 2.0) | 47% | | filters | -0.1% | (-0.3, 0.1) | 0.6% | ( 0.3, 0.8) | 42% | | navigation | -0.1% | (-0.3, 0.1) | 0.2% | ( 0.0, 0.5) | 29% | | image | -0.2% | (-0.5, 0.1) | 0.7% | ( 0.3, 1.1) | 40% | | popup | -0.2% | (-0.6, 0.3) | 1.6% | ( 1.0, 2.2) | 45% | | back to top | -0.2% | (-0.4, 0.1) | 0.3% | ( 0.0, 0.6) | 24% | | colour | -0.2% | (-0.5, 0.1) | 0.3% | ( 0.0, 0.7) | 28% | | calls to action | -0.2% | (-0.4, 0.0) | 0.5% | ( 0.3, 0.7) | 35% | | upsell | -0.3% | (-0.5, -0.0) | 0.3% | ( 0.0, 0.6) | 19% | | search | -0.3% | (-0.5, -0.1) | 0.2% | ( 0.0, 0.5) | 13% | | landing page | -0.3% | (-0.8, 0.1) | 0.9% | ( 0.3, 1.7) | 36% | | nudges and pointers | -0.3% | (-0.8, 0.1) | 1.7% | ( 1.4, 2.0) | 42% | | view all | -0.4% | (-1.3, 0.5) | 1.6% | ( 0.6, 2.7) | 40% | | sticky navigation | -0.5% | (-1.1, 0.0) | 0.8% | ( 0.0, 1.6) | 23% | | mobile search | -0.7% | (-1.2, -0.2) | 0.5% | ( 0.0, 1.1) | 10% | | weather | -1.0% | (-1.8, -0.2) | 1.0% | ( 0.0, 2.0) | 16% | | mobile navigation | -1.1% | (-1.9, -0.3) | 1.4% | ( 0.6, 2.3) | 21% |

A. 3 Pendapatan per konverter hasil

perlakuan rata-rata peningkatan CI rata-rata peningkatan (%) simpangan baku peningkatan peningkatan s.d. CI (%) probabilitas peningkatan
penjualan tambahan 0.5% ( 0.1, 0.9) 0.8% ( 0.2, 1.3) 74%
bukti sosial 0.3% ( 0.1, 0.6) 0.4% ( 0.0, 0.8) 81%
rekomendasi produk 0.3% ( 0.1, 0.5) 0.2% ( 0.0, 0.4) 91%
warna 0.2% (-0.2, 0.6) 0.3% ( 0.0, 0.7) 76%
dorongan dan petunjuk 0.2% (-0.1, 0.4) 0.2% ( 0.0, 0.4) 81%
kelangkaan 0.2% (-0.1, 0.5) 0.2% ( 0.0, 0.5) 74%
desain ulang halaman 0.1% (-0.2, 0.5) 0.3% ( 0.0, 0.6) 68%
pencarian 0.1% (-0.1, 0.3) 0.2% ( 0.0, 0.5) 69%
navigasi lengket 0.1% (-0.5, 0.6) 0.6% ( 0.0, 1.3) 57%
halaman arahan 0.1% (-0.3, 0.4) 0.2% ( 0.0, 0.6) 61%
spanduk 0.1% (-0.2, 0.3) 0.2% ( 0.0, 0.5) 59%
filter 0.0% (-0.3, 0.3) 0.8% ( 0.6, 1.1) 50%
popup 0.0% (-0.4, 0.4) 0.3% ( 0.0, 0.8) 50%
navigasi -0.0% (-0.2, 0.2) 0.3% ( 0.0, 0.7) 48%
gambar -0.0% (-0.3, 0.3) 0.2% ( 0.0, 0.5) 46%
penandaan produk -0.0% (-0.7, 0.6) 0.5% ( 0.0, 1.1) 47%
urgensi -0.1% (-0.4, 0.3) 0.4% ( 0.0, 0.9) 43%
ajakan bertindak -0.1% (-0.3, 0.2) 0.2% ( 0.0, 0.5) 36%
cuaca -0.1% (-0.8, 0.7) 0.4% ( 0.0, 1.0) 44%
lihat semua -0.1% (-0.8, 0.6) 0.8% ( 0.1, 1.5) 44%
perubahan pengaturan default -0.1% (-0.5, 0.3) 0.5% ( 0.0, 1.1) 38%
pengiriman gratis -0.2% (-0.7, 0.4) 1.4% ( 0.9, 2.0) 45%
tombol -0.2% (-0.4, 0.0) 0.2% ( 0.0, 0.5) 20%
kembali ke atas -0.3% (-0.6, 0.0) 0.2% ( 0.0, 0.5) 15%
pencarian seluler -0.3% (-0.8, 0.2) 0.4% ( 0.0, 1.0) 21%
navigasi seluler -0.4% (-0.9, 0.2) 0.5% ( 0.0, 1.2) 24%
pesan sambutan -0.4% (-1.1, 0.3) 2.1% ( 1.5, 2.8) 42%
mengubah ukuran elemen -0.4% (-1.0, 0.1) 0.4% ( 0.0, 0.9) 18%
pengabaian -0.6% (-1.1, -0.2) 1.1% ( 0.6, 1.5) 27%
treatment uplift mean uplift mean CI (%) uplift s.d. uplift s.d. CI (%) uplift probability upsell 0.5% ( 0.1, 0.9) 0.8% ( 0.2, 1.3) 74% social proof 0.3% ( 0.1, 0.6) 0.4% ( 0.0, 0.8) 81% product recommendations 0.3% ( 0.1, 0.5) 0.2% ( 0.0, 0.4) 91% colour 0.2% (-0.2, 0.6) 0.3% ( 0.0, 0.7) 76% nudges and pointers 0.2% (-0.1, 0.4) 0.2% ( 0.0, 0.4) 81% scarcity 0.2% (-0.1, 0.5) 0.2% ( 0.0, 0.5) 74% page redesign 0.1% (-0.2, 0.5) 0.3% ( 0.0, 0.6) 68% search 0.1% (-0.1, 0.3) 0.2% ( 0.0, 0.5) 69% sticky navigation 0.1% (-0.5, 0.6) 0.6% ( 0.0, 1.3) 57% landing page 0.1% (-0.3, 0.4) 0.2% ( 0.0, 0.6) 61% banner 0.1% (-0.2, 0.3) 0.2% ( 0.0, 0.5) 59% filters 0.0% (-0.3, 0.3) 0.8% ( 0.6, 1.1) 50% popup 0.0% (-0.4, 0.4) 0.3% ( 0.0, 0.8) 50% navigation -0.0% (-0.2, 0.2) 0.3% ( 0.0, 0.7) 48% image -0.0% (-0.3, 0.3) 0.2% ( 0.0, 0.5) 46% product badging -0.0% (-0.7, 0.6) 0.5% ( 0.0, 1.1) 47% urgency -0.1% (-0.4, 0.3) 0.4% ( 0.0, 0.9) 43% calls to action -0.1% (-0.3, 0.2) 0.2% ( 0.0, 0.5) 36% weather -0.1% (-0.8, 0.7) 0.4% ( 0.0, 1.0) 44% view all -0.1% (-0.8, 0.6) 0.8% ( 0.1, 1.5) 44% default setting changes -0.1% (-0.5, 0.3) 0.5% ( 0.0, 1.1) 38% free delivery -0.2% (-0.7, 0.4) 1.4% ( 0.9, 2.0) 45% buttons -0.2% (-0.4, 0.0) 0.2% ( 0.0, 0.5) 20% back to top -0.3% (-0.6, 0.0) 0.2% ( 0.0, 0.5) 15% mobile search -0.3% (-0.8, 0.2) 0.4% ( 0.0, 1.0) 21% mobile navigation -0.4% (-0.9, 0.2) 0.5% ( 0.0, 1.2) 24% welcome message -0.4% (-1.1, 0.3) 2.1% ( 1.5, 2.8) 42% resizing elements -0.4% (-1.0, 0.1) 0.4% ( 0.0, 0.9) 18% abandonment -0.6% (-1.1, -0.2) 1.1% ( 0.6, 1.5) 27%| treatment | uplift mean | uplift mean CI (%) | uplift s.d. | uplift s.d. CI (%) | uplift probability | | :--- | :--- | :--- | :--- | :--- | :--- | | upsell | 0.5% | ( 0.1, 0.9) | 0.8% | ( 0.2, 1.3) | 74% | | social proof | 0.3% | ( 0.1, 0.6) | 0.4% | ( 0.0, 0.8) | 81% | | product recommendations | 0.3% | ( 0.1, 0.5) | 0.2% | ( 0.0, 0.4) | 91% | | colour | 0.2% | (-0.2, 0.6) | 0.3% | ( 0.0, 0.7) | 76% | | nudges and pointers | 0.2% | (-0.1, 0.4) | 0.2% | ( 0.0, 0.4) | 81% | | scarcity | 0.2% | (-0.1, 0.5) | 0.2% | ( 0.0, 0.5) | 74% | | page redesign | 0.1% | (-0.2, 0.5) | 0.3% | ( 0.0, 0.6) | 68% | | search | 0.1% | (-0.1, 0.3) | 0.2% | ( 0.0, 0.5) | 69% | | sticky navigation | 0.1% | (-0.5, 0.6) | 0.6% | ( 0.0, 1.3) | 57% | | landing page | 0.1% | (-0.3, 0.4) | 0.2% | ( 0.0, 0.6) | 61% | | banner | 0.1% | (-0.2, 0.3) | 0.2% | ( 0.0, 0.5) | 59% | | filters | 0.0% | (-0.3, 0.3) | 0.8% | ( 0.6, 1.1) | 50% | | popup | 0.0% | (-0.4, 0.4) | 0.3% | ( 0.0, 0.8) | 50% | | navigation | -0.0% | (-0.2, 0.2) | 0.3% | ( 0.0, 0.7) | 48% | | image | -0.0% | (-0.3, 0.3) | 0.2% | ( 0.0, 0.5) | 46% | | product badging | -0.0% | (-0.7, 0.6) | 0.5% | ( 0.0, 1.1) | 47% | | urgency | -0.1% | (-0.4, 0.3) | 0.4% | ( 0.0, 0.9) | 43% | | calls to action | -0.1% | (-0.3, 0.2) | 0.2% | ( 0.0, 0.5) | 36% | | weather | -0.1% | (-0.8, 0.7) | 0.4% | ( 0.0, 1.0) | 44% | | view all | -0.1% | (-0.8, 0.6) | 0.8% | ( 0.1, 1.5) | 44% | | default setting changes | -0.1% | (-0.5, 0.3) | 0.5% | ( 0.0, 1.1) | 38% | | free delivery | -0.2% | (-0.7, 0.4) | 1.4% | ( 0.9, 2.0) | 45% | | buttons | -0.2% | (-0.4, 0.0) | 0.2% | ( 0.0, 0.5) | 20% | | back to top | -0.3% | (-0.6, 0.0) | 0.2% | ( 0.0, 0.5) | 15% | | mobile search | -0.3% | (-0.8, 0.2) | 0.4% | ( 0.0, 1.0) | 21% | | mobile navigation | -0.4% | (-0.9, 0.2) | 0.5% | ( 0.0, 1.2) | 24% | | welcome message | -0.4% | (-1.1, 0.3) | 2.1% | ( 1.5, 2.8) | 42% | | resizing elements | -0.4% | (-1.0, 0.1) | 0.4% | ( 0.0, 0.9) | 18% | | abandonment | -0.6% | (-1.1, -0.2) | 1.1% | ( 0.6, 1.5) | 27% |

B Berapa banyak data yang dibutuhkan untuk uji A/B

Di Qubit, kami merekomendasikan klien menjalankan eksperimen dengan tingkat false positive satu sisi sebesar 5 % 5 % 5%5 \% . Dengan kata lain, kami menerima sebuah tes sebagai ‘pemenang’ jika kami percaya probabilitas peningkatan lebih besar dari 95 % 95 % 95%95 \% . Ukuran sampel yang dibutuhkan adalah sedemikian rupa sehingga memungkinkan seseorang untuk mendeteksi peningkatan sebesar 5 % 5 % 5%5 \% dengan probabilitas 80 % 80 % 80%80 \% (yaitu, jika peningkatan dasar yang sebenarnya adalah 5 % 5 % 5%5 \% , tes memiliki peluang 80 % 80 % 80%80 \% untuk menang). Kami mengatakan bahwa 5 % 5 % 5%5 \% adalah target peningkatan, dan 80 % 80 % 80%80 \% adalah power.
Angka-angka ini adalah standar industri. Jika hanya mencari peningkatan dalam tingkat konversi, ini biasanya membutuhkan sampel sekitar 5.700 konverter baik di varian maupun kontrol (untuk eksperimen pendapatan, tidak ada angka sederhana untuk ini, tetapi umumnya setidaknya dua kali lebih besar). Dengan menjaga signifikansi dan power tetap sama, tetapi mengubah target peningkatan dari 5 % 5 % 5%5 \% , ukuran sampel mengikuti kira-kira hukum kuadrat terbalik:
sample size ( target uplift ) c  sample size  (  target uplift  ) c " sample size "prop(" target uplift ")^(c)\text { sample size } \propto(\text { target uplift })^{c}
di mana c 1.9 c 1.9 c~~-1.9c \approx-1.9 . Jadi untuk secara andal mendeteksi peningkatan sebesar 1 % 1 % 1%1 \% , seseorang akan membutuhkan lebih dari 20 kali jumlah data dibandingkan dengan target peningkatan 5 % 5 % 5%5 \% : kira-kira 120.000 konverter di kontrol dan setiap varian.

C Statistik mendalam untuk perlakuan

Dalam bagian ini kami akan menunjukkan statistik rinci untuk kategori perlakuan dalam meta-analisis. Untuk ringkasnya, kami hanya menyertakan grafik yang disebutkan namanya dalam bagian 2.2. Untuk daftar lengkap, dan gambar dengan resolusi lebih tinggi lihat https://github.com/mikesjqubit/ qubit-meta-analysis-results. Untuk setiap perlakuan kami menampilkan empat grafik. Dua grafik pertama adalah statistik ringkasan untuk setiap eksperimen yang digunakan untuk pendapatan per konverter (RPV) dan tingkat konversi (CR) - kami menampilkan rata-rata eksperimen dengan sebuah titik, serta persentil ke-5 dan ke-95 sebagai batang kesalahan.
Pasangan grafik kedua adalah ringkasan rinci dari distribusi posterior yang dihasilkan dari meta-analisis. Kami menyediakan 2 d 2 d 2-d2-\mathrm{d} grafik sebar untuk RPV dan CR, serta kontur yang menandai persentil ke-90 dan ke-99. Grafik ini dibuat dengan menjalankan pencarian grid pada rentang variabel yang masuk akal dan menggunakan fungsi potensial dari bagian 2.1.4.

C. 1 pengabaian

Gambar C.1: ringkasan tes ‘pengabaian’
Gambar C.2: plot kepadatan posterior ‘abandonment’

C. 2 tombol

Gambar C.3: ringkasan tes ‘tombol’
Gambar C.4: plot kepadatan posterior ‘tombol’

C. 3 warna

Gambar C.5: ringkasan tes ‘warna’
Gambar C.6: plot kepadatan posterior ‘warna’

C. 4 ajakan bertindak

Gambar C.7: ringkasan tes ‘calls to action’
Gambar C.8: plot kepadatan posterior ‘calls to action’

C. 5 navigasi seluler

Gambar C.9: ringkasan tes ‘navigasi seluler’
Gambar C.10: plot kepadatan posterior ‘navigasi seluler’

C. 6 rekomendasi produk

Gambar C.11: ringkasan tes ‘rekomendasi produk’
Gambar C.12: plot kepadatan posterior ‘rekomendasi produk’

C. 7 kelangkaan

Gambar C.13: ringkasan tes ‘kelangkaan’
Gambar C.14: plot kepadatan posterior ‘kelangkaan’

C. 8 bukti sosial

Gambar C.15: ringkasan tes ‘social proof’
Gambar C.16: plot kepadatan posterior ‘social proof’

C. 9 upsell

Gambar C.17: ringkasan tes ‘upsell’
Gambar C.18: plot kepadatan posterior ‘upsell’

C. 10 urgensi

Gambar C.19: ringkasan tes ‘urgensi’
Gambar C.20: plot kepadatan posterior ‘urgensi’

C. 11 cuaca

Gambar C.21: ringkasan tes ‘cuaca’
Gambar C.22: plot kepadatan posterior ‘cuaca’

D Perlakuan Tersegmentasi vs Tidak Tersegmentasi

Perlakuan dapat diberikan kepada semua pengguna atau dapat ditargetkan pada sub-kelompok tertentu. Salah satu asumsi yang tersirat dalam kemunculan teknologi personalisasi adalah semakin terarah suatu perlakuan pada kelompok tertentu, semakin efektif perlakuan tersebut. Kami mendefinisikan eksperimen tersegmentasi sebagai eksperimen apa pun yang menggunakan teknologi segmentasi Qubit sebagai kriteria agar pengguna dapat dimasukkan dalam eksperimen. Dengan menganalisis efek yang diharapkan dari perlakuan tersegmentasi dibandingkan dengan perlakuan yang tidak tersegmentasi, kami mengamati perbedaan hampir 3 kali lipat dalam peningkatan pendapatan yang diharapkan. Menariknya, kami juga mengamati deviasi standar yang jauh lebih besar untuk efek eksperimen tersegmentasi (lihat gambar D.1 dan D.2). Seiring meningkatnya pentingnya personalisasi, segmentasi akan menjadi alat yang krusial. Tantangan bagi bisnis yang mencoba menilai dampak dari pendekatan yang lebih terarah ini adalah semakin kecil kelompok pengguna yang ditargetkan, semakin sulit untuk mengukur dampak dari perubahan yang dilakukan. Analisis di masa depan dari jenis ini mungkin memerlukan pendekatan yang berbeda untuk membuktikan dampak pendapatan dari perlakuan yang sangat personalisasi.

D.1 tersegmentasi

Gambar D.1: ringkasan tes ‘tersegmentasi’
Gambar D.2: plot kepadatan posterior ‘tersegmentasi’

D. 2 tidak tersegmentasi

Gambar D.3: ringkasan tes ‘tidak tersegmentasi’
Gambar D.4: plot kepadatan posterior ‘tidak tersegmentasi’

  1. *Penulis berkontribusi sama, email: {will.browne, mike.sj}@qubit.com
    1 1 ^(1){ }^{1} untuk rincian lengkap metodologi yang dijamin dan laporan jaminan PwC silakan lihat http://www.qubit.com/sites/default/files/pdf/pwc-qubit-assurance.pdf