第31回R勉強会@東京
お勧め資料
はじめてのR masaha03 (SlideShare) 超お勧め
データの読み込み
組み込み関数 read.table read.csv
外部パッケージを使う Eccel 画像ファイル
データ構造 データフレームがメイン
分析の前処理
データの結合 merge, rbind, cbind データの抽出 subset
分析
- 各種手法の適用 ここで外部パッケージを使うことが多い 便利パッケージの紹介は本編
ファイル出力
テキスト、Excel
図 組み込みのplot 外部パッケージ lattice ggplot2 (最近はこちらが多い)
レポーティング knitr 普通のレポート slidify パワーポイントに出力 Rpubs
(昔はTeXとかでまとめることが多かった)
エディタ
RGUI Windowsは使いにくい RStudio 最近の定番。メモリは食う。一番無難 ESS Emacs EZR 医学系ではやりつつある Rzパッケージ SPSSの使いやすさ(GUI)をRで実現、masaha03さんが作った
情報収集
検索
seekR Rについて検索しやすい
Rseek 英語版
Web資料
R-tips Rjpwiki 同志社大学 金明哲先生 群馬大学 青木繁伸先生
書籍
ほかプログラミング言語の経験あり R言語逆引きハンドブック Rによるデータサイエンス Rパッケージガイドブック
データ分析自体の不慣れ データ解析のための統計モデリング入門 デー玉イニング入門 早稲田大学 豊田先生 シナリオに沿ってRを使っていく
勉強会
ゼロからはじめるR言語勉強会 最近はじまった勉強会 Wako.R (6/8開催) dritoshiさん R界のアイドルらしい。とがっている。人によっては引く Tokyowebmining 充実した議論、主催者の自己紹介が長い Zansa ガチで意も技術も高い大学生 集合地プログラミング勉強会 tetsuroitoさん 元はPythonをやっていた。今はやってない
さくさくテキストマイニング 資料が豊富。今はやってない 社会科学研究のためのR勉強会 ネットワーク関連
さあやってみよう
cran task view 目的別に外部パッケージがまとめられている。やりたいことが無い人はとっかかりに良いかも
Julia Rに我慢なら無い人が作り始めた次世代統計言語 脅威のPython勢 pandas:RのデータフレームをPythonで Bokeh:ggplot2ライクな可視化 scikit-learn:機械学習 機械学習向け Orange:統計、機械学習 統計向け
Jubatsu ゆばたす。分散したデータを常に素早く深く分析する。元はC++のライブラリ。機械学習
Rによるやさしい統計学(分散分析) aad34210さん
分散分析
分散分析 3つ以上の平均値を比較するための統計的方法 2つの平均値を比較する方法はt検定
二元配置分散分析(二要因とも対応なし)
主効果:それぞれの要因ごとの効果 常温か、冷温か 交互作用効果:ふたつの要因が組み合わされた場合に生じる効果。単純に二つの足し算ではない
二元配置分散分析(二要因とも対応あり)
評価者によって主観が入っているのではないか?を分析
主効果:温度によって簿平均は異なるか?
銘柄によって異なるか?
二元配置分散分析(一要因のみ対応あり)
冷蔵と常温をそれぞれ別の人たちに評価してもらったとき
seekRの中の人
seekR管理人平村さん
LinkedInのR Projectがおすすめ httpo://linkedin/
RForcecomパッケージ
Salesforce.com,Force.comに接続するパッケージ CRMにはいているデータを検索、引き出してRで分析してSalesforceに戻す
はじめよう多変量解析~主成分分析編~ sanoche16さん
多変量解析とは
多数の変量をもつデータを分析する
1変量、2変量の分析ができなければできない
平均、分散、共分散、相関係数、行列演算 微分積分、分布
主成分分析
分散を最大化させるのが一番合理的
因子分析は何が因子になっているかということを重視する アルゴリズムは主成分分析
主成分分析か、因子分析か? -> 因子分析でうまくいくかわからないようなものを分析するときは、とりあえずprcompに入れて主成分分析 -> 特徴を考えて要因分けしたい場合は因子分析
質の分析に主成分分析 -> 分散行列でやったとき、生の行列でやったとき、相関係数でやったとき -> 係数の順序は変わらないが、寄与率が変わる。寄与率が99%とかなってしまった。
相関の高い係数があると、使えるのか 相関係数の信頼区間が重要。 重回帰分析、目的変数がいかに精度を持っているかが重要
主成分分析は、どんな要素があるか、よりわかりやすく見るために使う。
R言語で学ぶマーケティング分析 - 競争ポジショニング戦略 - yokkunsさん
競争ポジショニング戦略
市場はさまざまな価値感や趣向の人たちで構成されている。ターゲットになる人を決めたい。
レコメンドエンジンはもともとあるサービスに対するもの。 戦略ポジショニングは
どんな人たちで構成されていて セグメンテーション その中で誰をターゲットにして ターゲティング どんなサービスを提供するか ポジショニング
セグメンテーション
市場を意味のあるグループに分ける
セグメント1,2,3,4
区分する方法:昔からの方法では、年代、性別、地域、職業など。 -> 趣味趣向が多様化しているので基本的な属性による区分では意味のあるグループができなくなってきている -> 同じセグメント内でも、さまざまな趣向や価値観の人が存在するようになった。
クラスタリングによるセグメンテーション
ログやアンケートで、その人の趣向や消費行動を見て本質的なグループわけをすること 職業や性別ではなく、本質的なところでグループ分けする
主成分分析を駆使して可視化する。 k-means方
fmsbパッケージのradarchart関数で実行できる
ターゲッティング
どのセグメントをターゲットにするかを決定する
こだわりデジタル層 飛びつきミーハーそう
ポジショニング
ターゲットセグメントの頭の中の自分たちのサービスと競合サービスの位置づけを理解し、彼らにどんなサービスを提供するかを決める
視覚マップを作成する ユーザにとってのサービスの位置づけマップ。マップ上で近い位置にあるサービスは競争関係になる
視覚マップ上でユーザが重視している方角を見つける
視覚マップはMDSでつくる (発表者がMDSが好きだから) 個体間の距離や非類似関係からマップを構築する
MASSパッケージのisoMDS関数で作成できる
説明変数?
R による自然言語処理入門 a_bickyさん
基礎知識
形態素解析 ざっくりというと単語分割のこと 「お酒」は「お」が接頭詞になる。ただ人によっては「お酒」で一語
「mecab」でできる mecab ハードルは高ければ高いほどくぐりやすい <- 入力する
ベクトル空間モデル 文書をベクトル空間の1点として表現する 素性(そせい feature) のとり方は色々ある
Unigram model
maxsentパッケージ New York Timesの記事のタイトルのデータ N-gram model
文字列処理はPythonでやったほうがやりやすい
ABテスト
AパターンとBパターンを実際に試して結果が良いほうを選ぶ 本当に数値が高いほうを客観的に選べる
検定 起きた結果が偶然なのかを判断する
-> ABテストだけは簡単だが、検定を加えるととたんに難しくなる
A あったらいいなを形にする B 無限の可能性をあなたに
好きなほうのキャッチコピーを選んでください -> AとBを実際に選んでもらって決める
検定 A1 B2
この結果は偶然。どちらか一方が優れているとは言い切れない。 この時点でははっきりしない
「偶然おきる」 A.3打席1安打の3割りバッター B.300打席100安打の3割バッター
Aは偶然かも、Bはすごい binom.test
で検定ができる
ZeroMQ(rzmq)つかうとRやほかの言語間で通信できる
RとPythonによるデータ解析入門
Python から R を呼び出す Webクローラを書く、データベースを操作、文字列処理が楽になる
scikit-learnが物足りない
Pandas Rで言うデータフレームが使える
Webデータ取得 -> csvに整形 -> 前処理 -> R
rpy2 で簡単にPythonとRの連携が非常に楽
pip install rpy2
これらよりjsonでzeroMQ使う方が連携しやすい?
ironpythonを使うほうが良い?