データ分析 クラウドファンディングの成功要因について

データ分析
この記事は約6分で読めます。

kaggleにアップロードされている、クラウドファンディングサイト、kickstarterのデータセット
を利用して、pythonでデータ分析してみました。
2010年4月から2018年1月までのデータのようです。

Kickstarter Projects
More than 300,000 kickstarter projects

クラウドファンディングの成功要因についてデータ分析する

データの前処理

まずはデータ分析で最重要とされるデータの前処理です。
ここでnull値のチェック、データの確認、変数の意味、データ型などデータ全体を理解します。

null値を確認する

まずはデータセットの中で、null値のチェックをします。
state_typeにnull値が多いことがわかりました。

データの可視化

メインカテゴリ

続いて、kickstarterに登録されているプロジェクトの中でカテゴリ別に多い15件をみてみます。

Film&Video、Music、Publishingが多く登録されています。
件数は下記の通りです。

Film & Video    63585
Music           51918
Publishing      39874
Games           35231
Technology      32569
Design          30070
Art             28153
Food            24602
Fashion         22816
Theater         10913
Comics          10819
Photography     10779
Crafts           8809
Journalism       4755
Dance            3768

サブカテゴリ

続いて、サブカテゴリはどうでしょうか

Product Design、Documentary、Musicの順に多いことがわかりました。

Product Design    22314
Documentary       16139
Music             15727
Tabletop Games    14180
Shorts            12357
Video Games       11830
Food              11493
Film & Video      10108
Fiction            9169
Fashion            8554
Nonfiction         8318
Art                8253
Apparel            7166
Theater            7057
Technology         6930

プロジェクトの成功率

続いて、登録されているプロジェクトの成功率をみてみましょう

全体の52.47%が未成立で、35.5%が成立しています。
そして何らかの理由で10.29%がキャンセルをしています。

プロジェクト成功率の推移

サービス開始後数年は成功率が42%台を推移しており、2015年に27.5%まで落ち込みました。
その後回復傾向なものの依然低い値で推移しています。

これは、クラウドファンディングへの熱の落ち着きや、バッカーがよりクォリティの高いプロジェクトを求めるようになったと推測します。

カテゴリ別の成功率

カテゴリ別では、Theater、Music、Comicsが成功しやすいようです。
Film&Videoは最もプロジェクト数が多いですが、失敗も多いです。

プロジェクトのゴール別デシル分析

プロジェクトに設定されている、ゴール金額を全体の10つのグループに分けて
それぞれデシルランク帯別に成功率を表したグラフです。

言わずもがな、ゴール金額が高くなればなるほど成功率が低くなります。
デシルランク10では、14.1%しか成功していません。

続いて、プロジェクトの有効期間によっての成功率のグラフです。
有効期間が長くなるにつれて成功率が下がっていくことがわかります。
これはプロジェクトを30日前後で登録すると成功率が高くなることを意味します。

引用:kickstarter

続いて、バッカーがプレッジするのはローンチ直後が最も多く、
締め切りが近づくにつれて再度プレッジが多くなることを表しています。

引用:kickstarter

引用元: https://www.kickstarter.com/blog/shortening-the-maximum-project-length

機能エンジニアリング(Feature Engineering)

続いて、機能エンジニアリングを行なって行きます。
データ分析の手法を使う際に必要になった変数の追加や、カテゴリを処理しやすくするために
ダミー変数に変更したり、扱いやすい形に変更していく作業です。

機能エンジニアリングとは、ドメイン知識を使用して、データマイニング手法を介して生データから機能を抽出するプロセスです。これらの機能を使用して、機械学習アルゴリズムのパフォーマンスを向上させることができます。機能工学は、応用機械学習そのものと考えることができます。

https://en.wikipedia.org/wiki/Feature_engineering

今回は、下記パラメータを追加しました。

・success: 成功、不成功を0、1化
・main_category: メインカテゴリを数値化
・days: プロジェクトの有効期間を数値化

勾配ブースティング(Gradient Boosting)

機能エンジニアリングの行程で追加した変数、利用しない変数をdropしたDataFrameを作成し
勾配ブースティングをかけていきます。
今回は、scikit-learnを利用しています。

勾配ブースティングは、回帰および分類問題のための機械学習手法であり、通常は決定木である弱い予測モデルのアンサンブルの形で予測モデルを生成します。他のブースティング手法と同様に段階的にモデルを構築し、任意の微分可能な損失関数の最適化を可能にすることでモデルを一般化します。

https://en.wikipedia.org/wiki/Gradient_boosting

有効な変数

プロジェクトの成功を決めるのは、ゴール金額、プロジェクトの有効日数、カテゴリはMusic、Theater、Technology、Comics、Fashionであることが成功しやすくなるということがわかりました。

まとめ

データ分析の手順

・前処理
・可視化
・機能エンジニアリング
・データ分析手法を活用し、データの意味を見出す

kickstarterの特徴

・成功しやすいカテゴリは、Theater、Technology、Comics
・ゴールの金額を高すぎないように設定する
・プロジェクトの有効期間は長すぎず、適切な日数に設定する

以上を考慮してkickstarterプロジェクトに登録してみては如何でしょうか。

Kaggleで勝つデータ分析の技術 | 門脇 大輔, 阪田 隆司, 保坂 桂佑, 平松 雄司 |本 | 通販 | Amazon
Amazonで門脇 大輔, 阪田 隆司, 保坂 桂佑, 平松 雄司のKaggleで勝つデータ分析の技術。アマゾンならポイント還元本が多数。門脇 大輔, 阪田 隆司, 保坂 桂佑, 平松 雄司作品ほか、お急ぎ便対象商品は当日お届けも可能。またKaggleで勝つデータ分析の技術もアマゾン配送商品なら通常配送無料。
タイトルとURLをコピーしました