Data Science by R and Python

統計学を、広く、深く、わかりやすく。

2014-01-01から1年間の記事一覧

疎な行列をRで扱う -R tips-

疎な行列(Sparse Matrix) ユーザーの購入履歴において、ユーザーを行、アイテムを列、アイテムを購入したら1、アイテムを購入しなかったら0となるような行列や、自然言語処理で用いられる単語文書行列は単語を行、文書を列、単語の出現頻度(出現の有無)…

【雑記|個人的見解として】大学の統計教育で統計を現場で使える人材は生まれるか?+何をすべきか?

* 本記事について(8/16) 本記事について、所属をかいたまま所見を述べるのは不適切であるという指摘をいただきましたので修正いたします。また、表現上適切ではない箇所がありますので、その点を加筆・修正いたします。 追記(8/16) それから、これは追記…

(第1回)Rを使ったグラフィック -ggplot2-

今日のテーマはRのグラフィック Rといえば、統計解析のソフトウェアという印象が強く、回帰・判別などいろんな手法を使えるソフトウェアとして認識されています。でも、それだけではありません。グラフィックにも強みがあります。plot関数をはじめ、histogra…

オープンデータを使ってみよう!-流山市の桜を最適なルートで回ろう!-

今回のテーマはオープンデータ! 最近、何かと話題のオープンデータ。今回は、オープンデータで遊んでみたよという記事です。オープンデータと言えば、「慶應義塾大学SFC研究所データビジネス創造・ラボ」と「アクセンチュア」が第2回データビジネス創造コン…

スポーツデータアナリティクス基礎講座 -反省・感じたこと-

スポーツデータアナリティクス基礎講座 先日のブログで、紹介したスポーツアナリティクス基礎講座に7/27(日)に登壇させていただきました。 【セミナー情報】スポーツ統計学の講座に登壇します - Data Science by R and Python URL : 7月27日 第1回 スポー…

夏休み!にやりたいこと!

夏休み 遂に、夏休みまで後2日になりました。夏休みというのは、名ばかりなわけですが。でも、時間があるのは確かなので、読んでみたい本とか、勉強・研究してみたい内容とか、まとめてみようと思います。まず、勉強・研究したい内容から。 勉強したい・研究…

戦略構築に活かす決定木 -Decision Tree-

今日のテーマ「決定木(けっていぎ)」 決定木は、統計の手法の中でも非常によく用いられる手法です。昨日、相談を受けていろいろ勉強したこともあるので、勉強した内容をここにまとめてみようと思います。まずは、決定木の説明と、どのようなケースで用いる…

【セミナー情報】スポーツ統計学の講座に登壇します

スポーツデータアナリティクス基礎講座 今回は、スポーツ統計学についてセミナーでお話をさせていただくことになりました。こちらにも案内と簡単な内容を書かせていただきます。 概要(スポーツ統計学とは) スポーツ統計学はデータ主導型マネージメントによ…

健康管理の未来 - データによって変わる未来

今日は、こんなテーマでブログを書きます。 データ解析のこれから データ解析をやり始めて、そろそろ2年目になります。いろんなデータに触れて、いろんな手法に触れて。まだまだ、やりたいないことだらけだけど、これからのデータ解析はどうなるのか?という…

【雑談】SFCにできたデータサイエンス科目

今日は雑談を書きます。 最近気になっている「SFCのデータサイエンス科目」について 今年度から、慶應のSFCのカリキュラムが変わって、データサイエンス科目なるものが登場したらしい。以下のURLに詳細があるみたい。しかも、必修科目に加えられてて、なんか…

機械学習 - Naive Bayes Method

こんにちは。 最近、ちまたで流行ってる機械学習とかに手を出し始めております。 先日はサポートベクターマシン(通称SVM)を勉強して、ちょっと感動しました。 ここ数日はナイーブベイズ(単純ベイズ)について勉強しています。ナイーブベイズ法と言えば、…

【雑記】データ解析の現場にきて思うこと

こんにちは。今週の水曜日(5/14)に学内の発表があるのでその準備に追われています。60分の発表なのに、120分ぐらいのスライドをつくってしまったのでどうしよう...と途方に暮れているのが今です。発表内容はこちら 20140512_水曜セミナードラフトv1 from …

【Bioinformaticsの基礎】自分用

【自分勉強用】 RNAとは http://kuchem.kyoto-u.ac.jp/seika/inoue/RNAtowa/RNA.htmlスプライシング http://ja.wikipedia.org/wiki/Pre-mRNA_スプライシングRNAへの転写 http://seesaawiki.jp/w/dhlkai/d/RNA%A4%D8%A4%CE%C5%BE%BC%CC%A4%C8%A5%D7%A5%ED%A5%…

データの読み方|解析結果にだまされないようにしよう!

保護者の年収や習慣と、子供の学力の関係性についての調査が出ています。特に身近だから「年収と子供の学力」には「線形的な」関係があるというところで、TwitterでRTされて盛り上がってるけど、調査内容を少し斜めから見て、疑ってみても良いかもしれません…

データ解析のためのPythonの設定まとめ

これがなかなかしっかりまとまってるので紹介 http://qiita.com/sky_y/items/4b9641b01e713ea4ab73データ解析のためのPythonインストールまとめ - Qiita

vimの使い方

vim

vimの使い方の基本的なところをここで確認できる。http://www15.ocn.ne.jp/~tusr/vim/vim_text0.html#mozTocId814447Vimの使い方

mysqlのインストール方法

環境はMac OS X Mavericksで行っています。 この動画の手順に合わせて操作すれば、mysqlをきちんとインストールすることができました。https://www.youtube.com/watch?v=3Zn_SPvmz-o MySQL 5.6のインストール(Mac OS X v10.8 Mountain Lion) - YouTube次に…

【私事】大学院に進学いたします。

私事で恐縮ですが、次年度より大学院に進学いたします。専攻は相変わらず、統計学です。研究領域は、大きく変わりゲノム解析となる予定です。(ゲノムと聞くと生物学っぽいですが、、、白衣を着て実験はしません)。ただ、このほかにもビッグデータ解析とか…

【備忘録】Markov chain Monte Carlo Method

今回は、いつもの統計の勉強がテーマではなく、僕の備忘録です。。。 Markov chain Monte Carlo(MCMC)とは マルコフ連鎖とモンテカルロ積分を用いる、パラメータ推定を行う方法の1つ。 MCMCのモチベーションは、高次元空間のパラメータなどの事後分布の「正…

【統計の勉強をしよう!】Rの使い方 - その1

【統計の勉強をしよう!】 シリーズ第3回目は、いきなりソフトウェアを使っての、データを解析の準備がテーマです。少々ややこしい箇所もありますが、ついてきてください。今回はRをインストールするところから、簡単な計算や、統計で使うベクトルの考え方を…

【統計の勉強をしよう!】イントロダクション

前回のブログから、少し日にちが空いてしまいました。本日、卒業論文のドラフト提出があったので、先週から部屋と研究室に缶詰になってガシガシ書いていました。無事出せたので、ブログも再開します。 統計学の勉強をはじめるために - このブログで書いてい…

【統計の勉強をしよう!】何から始めれば良いのか?

統計学を勉強するためにはどうすればいいのか? 最近、「データサイエンス」とか「統計学」とか勉強するためには、どうすればいいでしょうか?という質問を頂いたり、個人的にも「どうすればいいのかな?」と思って考えているので、思うところを、個人的に書…

英語のプレゼンテーションを作成する

来週の月曜日に迫った、英語でのプレゼンテーション(現在もパワポ作成してる...)。英語がそんなに得意ではない(日常会話ぐらい)のと、プレゼンテーションの構成のやり方、話し方が分からないという未曾有の危機で、参考になって助けられてる記事を備忘録…

日本のOPEN DATAについて!(ウェブサイトが開設)

2013年12月20日に日本版data.gov(政府のオープンデータサイト)がオープンしました。まだ、β版だということですが、様々なデータフレームが掲載されています。タグ検索や、省庁ごとの検索などが可能で、機能もなかなか充実しています。オープンデータに興味…

TeXを使おう!

TeXってご存知ですか? 理系で論文を書いている方で、特に数式をメインに扱うような方は使われている方が多いと思いますが、特に文科系の方には縁のないエディターだと思います。(TeXは"テフ"と読みます。一部、"テック"と読まれる方もいらっしゃるようです…