Octopress Blog

自分のためのまとめブログ

第31回R勉強会@東京

第31回R勉強会@東京

お勧め資料

はじめてのR masaha03 (SlideShare) 超お勧め

データの読み込み

  • 組み込み関数 read.table read.csv

  • 外部パッケージを使う Eccel 画像ファイル

  • データ構造 データフレームがメイン

分析の前処理

データの結合 merge, rbind, cbind データの抽出 subset

分析

  • 各種手法の適用 ここで外部パッケージを使うことが多い 便利パッケージの紹介は本編

ファイル出力

  • テキスト、Excel

  • 図 組み込みのplot 外部パッケージ lattice ggplot2 (最近はこちらが多い)

  • レポーティング knitr 普通のレポート slidify パワーポイントに出力 Rpubs

(昔はTeXとかでまとめることが多かった)

エディタ

RGUI Windowsは使いにくい RStudio 最近の定番。メモリは食う。一番無難 ESS Emacs EZR 医学系ではやりつつある Rzパッケージ SPSSの使いやすさ(GUI)をRで実現、masaha03さんが作った

情報収集

検索

  • seekR Rについて検索しやすい

  • Rseek 英語版

Web資料

R-tips Rjpwiki 同志社大学 金明哲先生 群馬大学 青木繁伸先生

書籍

  • ほかプログラミング言語の経験あり R言語逆引きハンドブック Rによるデータサイエンス Rパッケージガイドブック

  • データ分析自体の不慣れ データ解析のための統計モデリング入門 デー玉イニング入門 早稲田大学 豊田先生 シナリオに沿ってRを使っていく

勉強会

ゼロからはじめるR言語勉強会 最近はじまった勉強会 Wako.R (6/8開催) dritoshiさん R界のアイドルらしい。とがっている。人によっては引く Tokyowebmining 充実した議論、主催者の自己紹介が長い Zansa ガチで意も技術も高い大学生 集合地プログラミング勉強会 tetsuroitoさん 元はPythonをやっていた。今はやってない

さくさくテキストマイニング 資料が豊富。今はやってない 社会科学研究のためのR勉強会 ネットワーク関連

さあやってみよう

cran task view 目的別に外部パッケージがまとめられている。やりたいことが無い人はとっかかりに良いかも

Julia Rに我慢なら無い人が作り始めた次世代統計言語 脅威のPython勢 pandas:RのデータフレームをPythonで Bokeh:ggplot2ライクな可視化 scikit-learn:機械学習 機械学習向け Orange:統計、機械学習 統計向け

Jubatsu ゆばたす。分散したデータを常に素早く深く分析する。元はC++のライブラリ。機械学習


Rによるやさしい統計学(分散分析) aad34210さん

分散分析

分散分析  3つ以上の平均値を比較するための統計的方法 2つの平均値を比較する方法はt検定

二元配置分散分析(二要因とも対応なし)

主効果:それぞれの要因ごとの効果 常温か、冷温か 交互作用効果:ふたつの要因が組み合わされた場合に生じる効果。単純に二つの足し算ではない

二元配置分散分析(二要因とも対応あり)

評価者によって主観が入っているのではないか?を分析

主効果:温度によって簿平均は異なるか?

   銘柄によって異なるか?

二元配置分散分析(一要因のみ対応あり)

冷蔵と常温をそれぞれ別の人たちに評価してもらったとき


seekRの中の人

seekR管理人平村さん

LinkedInのR Projectがおすすめ httpo://linkedin/

RForcecomパッケージ

Salesforce.com,Force.comに接続するパッケージ CRMにはいているデータを検索、引き出してRで分析してSalesforceに戻す


はじめよう多変量解析~主成分分析編~ sanoche16さん

多変量解析とは

多数の変量をもつデータを分析する

1変量、2変量の分析ができなければできない

平均、分散、共分散、相関係数、行列演算 微分積分、分布

主成分分析

分散を最大化させるのが一番合理的

因子分析は何が因子になっているかということを重視する アルゴリズムは主成分分析

主成分分析か、因子分析か? -> 因子分析でうまくいくかわからないようなものを分析するときは、とりあえずprcompに入れて主成分分析 -> 特徴を考えて要因分けしたい場合は因子分析

質の分析に主成分分析 -> 分散行列でやったとき、生の行列でやったとき、相関係数でやったとき -> 係数の順序は変わらないが、寄与率が変わる。寄与率が99%とかなってしまった。

相関の高い係数があると、使えるのか 相関係数の信頼区間が重要。 重回帰分析、目的変数がいかに精度を持っているかが重要

主成分分析は、どんな要素があるか、よりわかりやすく見るために使う。


R言語で学ぶマーケティング分析 - 競争ポジショニング戦略 - yokkunsさん

競争ポジショニング戦略

市場はさまざまな価値感や趣向の人たちで構成されている。ターゲットになる人を決めたい。

レコメンドエンジンはもともとあるサービスに対するもの。 戦略ポジショニングは

どんな人たちで構成されていて セグメンテーション その中で誰をターゲットにして ターゲティング どんなサービスを提供するか ポジショニング

セグメンテーション

市場を意味のあるグループに分ける

セグメント1,2,3,4

区分する方法:昔からの方法では、年代、性別、地域、職業など。 -> 趣味趣向が多様化しているので基本的な属性による区分では意味のあるグループができなくなってきている -> 同じセグメント内でも、さまざまな趣向や価値観の人が存在するようになった。

クラスタリングによるセグメンテーション

ログやアンケートで、その人の趣向や消費行動を見て本質的なグループわけをすること 職業や性別ではなく、本質的なところでグループ分けする

主成分分析を駆使して可視化する。 k-means方

fmsbパッケージのradarchart関数で実行できる

ターゲッティング

どのセグメントをターゲットにするかを決定する

こだわりデジタル層 飛びつきミーハーそう

ポジショニング

ターゲットセグメントの頭の中の自分たちのサービスと競合サービスの位置づけを理解し、彼らにどんなサービスを提供するかを決める

視覚マップを作成する ユーザにとってのサービスの位置づけマップ。マップ上で近い位置にあるサービスは競争関係になる

視覚マップ上でユーザが重視している方角を見つける

視覚マップはMDSでつくる (発表者がMDSが好きだから) 個体間の距離や非類似関係からマップを構築する

MASSパッケージのisoMDS関数で作成できる

説明変数?


R による自然言語処理入門 a_bickyさん

基礎知識

形態素解析 ざっくりというと単語分割のこと 「お酒」は「お」が接頭詞になる。ただ人によっては「お酒」で一語

「mecab」でできる mecab ハードルは高ければ高いほどくぐりやすい <- 入力する

ベクトル空間モデル 文書をベクトル空間の1点として表現する 素性(そせい feature) のとり方は色々ある

Unigram model

maxsentパッケージ New York Timesの記事のタイトルのデータ N-gram model

文字列処理はPythonでやったほうがやりやすい


ABテスト

AパターンとBパターンを実際に試して結果が良いほうを選ぶ 本当に数値が高いほうを客観的に選べる

検定 起きた結果が偶然なのかを判断する

-> ABテストだけは簡単だが、検定を加えるととたんに難しくなる

A あったらいいなを形にする B 無限の可能性をあなたに

好きなほうのキャッチコピーを選んでください -> AとBを実際に選んでもらって決める

検定 A1 B2

この結果は偶然。どちらか一方が優れているとは言い切れない。 この時点でははっきりしない

「偶然おきる」 A.3打席1安打の3割りバッター B.300打席100安打の3割バッター

Aは偶然かも、Bはすごい binom.test

で検定ができる


ZeroMQ(rzmq)つかうとRやほかの言語間で通信できる


RとPythonによるデータ解析入門

Python から R を呼び出す Webクローラを書く、データベースを操作、文字列処理が楽になる

scikit-learnが物足りない

Pandas Rで言うデータフレームが使える

Webデータ取得 -> csvに整形 -> 前処理 -> R

rpy2 で簡単にPythonとRの連携が非常に楽

pip install rpy2

これらよりjsonでzeroMQ使う方が連携しやすい?

ironpythonを使うほうが良い?

リンク