データ分析備忘録 in Tokyo: 【トレジャーデータ】記事別DAU階級推移（SQL：case文を使う）

2016年10月27日木曜日

【トレジャーデータ】記事別DAU階級推移（SQL：case文を使う）

閲覧記事のDAUの構造的変化を把握したいときは、各記事をDAU階級*に分けてその変化を見る方法があります。

*DAU階級例

階級	UU数（dau）
A	10001~
B	5001~10000
C	1001~5000
D	101~1000
E	1~100

階級分けはkmeans等を使う場合が多いですが、複数のPJやメディア等を横串で評価する場合は定性評価で統一基準を設けても良いです（と思っています）。

実際には、下記のような集計をおこない階級別の推移を見て、施策の効果や現状の課題等を把握します。

date_time	A_dau	B_dau	C_dau	D_dau	E_dau
2016-10-20	?	?	?	?	?
2016-10-21	?	?	?	?	?
2016-10-22	?	?	?	?	?
2016-10-23	?	?	?	?	?
2016-10-24	?	?	?	?	?
2016-10-25	?	?	?	?	?
2016-10-26	?	?	?	?	?

具体的なSQLの例は下記となります。

データ名：data（すでに各記事のdauを集計済）
データ構造：date_time（yyyy-MM-dd）, page_name（記事の名前）, dau
補足：集計は度数分布表やヒストグラム作成に用いるcase文を利用

SELECT
date_time,
SUM(CASE
    WHEN dau >= 10001 THEN dau END) AS A_dau,
SUM(CASE
    WHEN dau >= 5001 AND dau < 10000 THEN dau END) AS B_dau,
SUM(CASE
    WHEN dau >= 1001 AND dau < 5000 THEN dau END) AS C_dau,
SUM(CASE
    WHEN dau >= 101 AND dau < 1000 THEN dau END) AS D_dau,
SUM(CASE
    WHEN dau >= 1 AND dau < 100 THEN dau END) AS E_dau
FROM
data
WHERE
--自動集計するためのコード
TD_TIME_RANGE(TD_TIME_PARSE(date_time),
              TD_TIME_ADD(TD_SCHEDULED_TIME(),
                          '-7d'), --7日分のデータを集計
              TD_SCHEDULED_TIME(),
              'jst')
GROUP BY
date_time
ORDER BY
date_time

今回は各記事のDAUを集計していますが、
THEN dau END　→　THEN 1 else 0 END
とすることで階級別の記事数を集計できます。

0 件のコメント :

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

データ分析備忘録 in Tokyo

注目の投稿

【kepler.gl】コロナ対策による人流の変化も地図上に可視化（各種メディアで報道）

2016年10月27日木曜日

【トレジャーデータ】記事別DAU階級推移（SQL：case文を使う）

0 件のコメント :

コメントを投稿

人気の投稿

ラベル