GPUでデータ分析!高速なデータ分析プラットホーム『MapD』を使って賃貸物件の家賃を可視化してみた
完成したもの
とても高速なデータ分析プラットホームMapDを使用して日本全国における賃貸物件の家賃を地図とヒストグラムでビジュアライゼーションしました。
日本全国から皇居あたりへズームインしていくと家賃(m2単価)の分布が高い方へ移動していくのがわかります。
当たり前ですが皇居には賃貸物件がないので賃貸物件を地図にプロットするとに空白地帯となります。
なお、m2単価とは、家賃(円) / 面積(m2)です。
例えば、広さ20m2で家賃6万円なら、m2単価は3,000円となります。
MapDとは
GPUを利用したデータ分析プラットフォームです。
GPUデータべース
- インメモリ/カラムストア/SQL
- オープンソース https://github.com/mapd/mapd-core
GPU描画処理
- データ可視化記述フォーマットVegaを使ってクエリに対する画像を返す
- オープンソース https://github.com/mapd/mapd-connector/tree/master/dist
参考
準備
AWS環境があればすぐに使うことができます!
データのアップロード(テーブル作成)
それほど重くなければCSVファイル等はドラッグ&ドロップでアップロードできます。
AWSのS3からインポートもできます(先にテーブル作成が必要です)。
https://www.mapd.com/docs/latest/mapd-core-guide/tables/
https://www.mapd.com/docs/latest/mapd-core-guide/loading-data/
地図ビジュアライゼーション
まずは日本全国における賃貸物件の家賃を地図でビジュアライゼーションします。
地図にポイントを表示する
賃貸物件1つを1つのポイント(点)として地図に描画します。
Add chartをクリック
SOURCESから可視化したいテーブルを選択して、MEASURESで緯度/経度に対応するカラムをセットします。
そして、POINTMAPをクリックすると…
地図が表示できました!
ポイントの色は単位面積あたりのレコード数に対応しています。
地図タイルを変える
これは好みの問題ですが、色をつけて描画するポイントを見やすくするために黒っぽい地図タイル(背景)を選びます。
ポイントの色をm2単価に対応させる
デフォルトではポイントの色は単位面積あたりのレコード数に対応していましたが、m2単価に対応させてみます。
m2単価が高いエリア(東京、名古屋、大阪あたり)が黄色になっていて、他は青になっている地図が想像できます。
SizeとColorをm2単価にセットします。
ところが、予想に反して全体的に緑色になってしまいました。
異常値が含まれていたためです。
異常値除外
異常値を除外してポイントの色をm2単価に対応できました!
首都圏を見ると、都心に近づくに連れてm2単価が高くなる(つまり家賃が高くなる)ことがビジュアライゼーションですぐ分かりますね。
ヒストグラム
続いて、家賃の分布をヒストグラムで可視化します。
Saveボタンを押して保存するのを忘れずに!
完成!
東京都の大田区から足立区へ北に移動していくと...
都心に近づくにつれて家賃が高くなっていき、都心から離れていくと家賃が安くなります。
地図のプロットとヒストグラムの表示がは連動しており、地図を動かすと地図内における賃貸物件のm2単価を集計して(クエリを実行して)ヒストグラムを表示します。
都度クエリを実行していますがMapDなら高速に処理できます!
Qiitaの記事はこちら