機械 学習 データ セット。 データセットとは

Kaggleとは?機械学習初心者が知っておくべき3つの使い方

機械 学習 データ セット

この記事の内容• 一般的な医療データセット アメリカ人の健康を改善することを目的としているアメリカ連邦政府が提供するデータセットへのリンク。 3200超のデータが利用できる。 医療データの有名なポータルサイト。 ここも多数のデータが利用可能。 40カ国以上の死亡率と人口データ アメリカ政府の研究機関NIHが提供するがん統計。 いくつかの身体活動を行いながらさまざまな体動記録やバイタルサイン、心電図などをとったもの 9131人分の顔画像。 1人当たり平均362枚あり、年齢や人種など多様な人の画像が含まれている。 医療画像データセット 脳画像データセットを収録するプロジェクト。 MRIやPETもある。 脳画像および脳波の網羅的プラットフォーム。 MRI、MEG、EEG、iEEG、およびECoGデータを共有 脳画像と認知機能についてのデータセット 脳梗塞の画像データ 6ヶ月の乳児の頭部MRIのデータセット。 3万人以上の肺のレントゲン写真11万枚のデータセット。 その結果は14のカテゴリーに分かれている。 65,240人 224,316枚 の患者の胸部レントゲン写真集。 14の病気について有無のラベルつき。 4,400名の患者, 32,000枚のCT画像のデータセット。 病変部位のデータつき。 医療画像データセットとしてはかなり大規模。 リンパ節の位置がついた胸腹部CT画像。 腹部のCTおよびMRI画像集。 膵臓の位置がついた腹部造影CT画像。 骨のレントゲン画像のデータセットで40,561枚の写真からなる。 脊椎のMRIデータ 膝のMRI画像集。 10,000の画像からサンプルされた1500件のデータが提供されている。 データ数は1,370。 さまざまな正常組織のHE染色標本データ 5389名の患者から得られた眼底画像13,000枚。 患者の性別、右目or左目、疾患のラベルあり。 糖尿病性網膜症の患者さんの眼底写真。 白内障手術のアノテーションつき動画セット。 人体の3次元データに時間軸を加えた、4次元の動きデータ 60fpsで撮影。 遺伝子発現データ マイクロアレイ, RNA-seq やその他の実験データの代表的なレポジトリである。 同様の役割を果たすサイトであるも生物学界隈では非常に有名。 ヒトの遺伝的変異の最も詳細なカタログを作る国際プロジェクト。 世界中の国々から2500人以上のゲノムを集めた。 さまざまな皮膚疾患の遺伝子発現データが収録されている 生命科学系画像・動画 蛍光染色した細胞の動きのタイムラプスビデオ 超解像顕微鏡による画像と分子局在データ 神経シナプスの電子顕微鏡写真 病院・治療 で使用されているデータセット。 アメリカの4,000以上の病院の質を比較できる。 重篤な患者の集中治療に絞ったデータセットがいろいろダウンロードできる。 40,000人の患者データで、人口統計、バイタルサイン、検査結果、医薬品などの情報がある。 がんをはじめとする病気やよくある症状などの 医学知識、再生医療などの 生命科学研究は、研究手法が大きく前進したこととコンピューターの発達なども相まって、 かつてないほどの勢いで知識の整備が進んでいます。 では、主として医師や医学生命科学研究者ではない方や、未来を担う学生さんに向けた情報発信をしています。 2週間に1回のペースで、サイトの更新情報や、それらをまとめた解説記事をニュースレターとして発行しています。 メールアドレスの登録は 無料で、もちろんいつでも解除することができます。 サイト名の「ハックする」には、分かってきたことを駆使し、それを応用して、病気の治療や研究などにさらに活用していこうという意味があります。 生命医学について徐々に解き明かされてきた人類の英知を受け取ってみませんか?.

次の

データセットと機械学習

機械 学習 データ セット

様々なデータセットをまとめているサイトです。 中でもKaggleは特に有名で簡単にデータセットの利用が簡単なので、おすすめです。 企業や研究機関などが様々なデータを公開。 英語のみ。 無料会員登録必要。 Kaggle 初級者向けチュートリアル• Amazon AWSが公開している、誰でも無料で利用が可能なパブリックデータセットです。 2018年3月末時点で約30以上のデータセットが公開されています。 地理空間や衛星写真、ゲノムなどのデータから、機会学習用として50億を超えるウェブサイトのクロールデータや、全世界で報道されている2億5千万件のニュースのモニタリングデータ(毎日更新!)など、非常に興味深いデータも公開されています。 AWS SageMaker 初級者向けチュートリアル• 数少ない日本のデータセットを提供。 Yahooや楽天のレビューデータセットもあります。 原則として研究者またはNTCIR参加者。 利用は無料ですが、無料申請および覚書締結あり。 米ハーバード大学が公開してるデータセットです。 オープンソースのデータレポジトリ「Dataverse」のソフトウェアが必要。 こちらも米カルフォルニア大学アーバイン校が管理しています。 現時点で約400件ほどのデータセットが公開されています。 知名度も高く、また無料で簡単にダウロード可能。 英語のみ。 Googleの研究チームが公開している、700万件の動画が4800件のナレッジグラフのエンティティでタグ付けされているデータセットです。 TensorFlow(テンソルフロー)ファイルとしてダウンロード可能。 同じくGoogleから公開されている、動画のBouding Boxがラベリングされているデータセット。 24万件のYouTubeの動画のデータセットが公開されています。 DeepMindが公開している、約30万件のYouTube動画に、400種に分類された人間のアクションがラベリングを行ったデータセットです。 でデータセットがブラウザからも確認できます。 セントラル・フロリダ大学が提供をしている人間のアクション認識を判別するための動画です。 101個のアクションラベル(行動の分類)が付与されており、13320動画が分類されています。 また各アクションはさらに大枠で5つのカテゴリ(スポーツや楽器を引いてるなど)に別れています。 特に会員登録などが必要なく利用が可能ですが、利用される場合はデータ発行元のクレジットの記載が必要となります。 2017年10月にGoogleから公開された人間のアクションのラベルがついている動画データセットです。 AVAとはAtomic Visual Actions(最小単位の視覚的なアクション)の略となっており、他の動画データセットとの大きな違いとして、一つのシーンでも複数のラベルが付与されており、複雑な人間のアクションに対して機械学習を行うことが可能です。 利用はサイト上の「Download」リンクより可能です。 (捕捉:Googleによると、より詳細のデータセットとなるAVA 2. 0も近日公開予定)• ドイツをベースとしている人工知能スタートアップの「twentybn」が公開しているハンドジェスチャーのラベルが付与された動画データセットとなります。 全動画数は148,092ど非常にでかいデータセットとなっており、ラベル数は27個の事前に定義されたハンドジェスチャーのラベルが付与されています。 ラベルの例として、「Swiping Left(左へスワイプ)」や「Thumb Up(親指を立てるジェスチャー)」などあります。 学術的な研究目的であれば会員登録と規約の同意で利用が可能ですが、商用利用の場合は別途ライセンスの申請が必要となりますので、ご注意ください。 米大学MIT(マサチューセッツ工科大学)とIBM ワトソンAIラボが共同で行なっている研究プロジェクトが公開している動画のデータセットです。 3秒の動画にアクションラベルが付与されています。 動画数は100万、ラベル数は339個あり、かつ全てのラベルで必ず1000以上の動画が提供されています。 データセットの利用ですが、特設されてるフォームからお申し込みをして、提供元からの審査があります。 トロント大学、カタニア大学、ブリストル大学のコンピュータービジョンの合同研究チームが公開した、キッチンの動画データセットです。 キッチンでの作業(例えば料理の下ごしらえや調理、さらには食器洗いなど)を頭に取り付けたヘッドマウントカメラで撮影した55時間分の動画です。 39 ,594の行動ラベル、454,158のオブジェクトラベルが付与されています。 無料でデータセットを使うことは可能ですが、商用不可でクレジット記載が必要です。 おそらく機械学習で誰もが一度は触ると思われる、有名なデータセットです。 手書きの文字「0〜9」に正解ラベルが付与されています。 データサイズも大きくありませんので、気軽に利用が可能。 ちなみに読み方は「エムニスト」です。 MNIST チュートリアル• こちらも非常に知名度の高い、トロント大学が公開しているデータセットです。 クラスは飛行機、自動車、鳥、猫、鹿、犬、カエル、船、トラックの10種です。 60,000のトレーニングセットと10,000のテストセットで構成されている、ファッションの画像が10クラス 例:Tシャツ、ドレス、サンダル でラベリングされています。 ファッションECのZalandoが提供しています。 Computer Vision Laboratoryが提供している、101,000個の食品画像を101個のカテゴリでラベリングしたデータセットとなります。 会員登録などなく、簡単に利用が可能です。 Googleが提供をしている世界最大の画像データセット。 画像内に写っているオブジェクト600種に対してバウンディング・ボックスが付与されています。 詳しくは「」をご覧ください。 ワシントン大学が開催している、顔認識アルゴリズムの公開競争となります。 ノイズデータを混ぜた顔認識、超大規模なデータセット(67. 2万人分、470万枚の画像 の認識モデルの2つのチャレンジが現在行われています。 香港中文大学が提供する、20万人以上の世界中のセレブの顔に、40のアトリビューションを付与したデータセットとなります。 アトリビューションの例としては、「メガネ」「帽子を被っている」「笑顔」などです。 商用での利用は禁止、イメージのコピーは同一組織内での使用に限りOKですが、その他の使用は原則禁止となります。 Facial Recognition Technologyの略のFERETですが、1199名の異なる角度の顔が11338イメージ含まれています。 アメリカ国防総省が提供しているデータで、利用ですが、リリース規約を読んで、規定のメールアドレスへ同意した旨を送ることで、自動返信で返信が来るようです。 331万件もの大規模なデータとなっており、9131名の画像が含まれています。 1名あたりで362. 6イメージあります。 データセットの利用には会員登録が必要です。 特徴として、様々な人種、年齢や職業などバリエーションが意図的に高くなっています。 3万人越えの肺のレントゲン写真11万枚のデータセットで、14つの胸部疾患にカテゴライズされているデータセットです。 ダウロードはapp box経由で簡単に行えます。 為替・株・金融• 近年はやりの仮想通貨関連のデータの取得が可能です。 日本でもメジャーなビットコインやイサーリアム、さらには比較的マイナーなアルトコインなどデータの取り扱いは非常に豊富です。 利用ですが個人・商業利用も含めて可能のようです。 APIも提供をしていますが、現状はAPIはライブ価格のティックのみとなります。 将来的には過去レート、さらん有料版のAPIも提供予定とのこと。 世界的に有名な為替取引のゲインキャピタルですが、為替レートの過去データを公開しています。 2000年から最新までの1週間毎の為替レートのダウロードが可能です。 取得に関しては、特に会員登録などは必要ありません。 通貨は期間によってばらつきがありますが、米ドル円やユーロ円などのメジャーな通貨のデータはほとんどカバーされています。 金融関連の機械学習チュートリアル• 本記事ですが、常時更新をしていきます!本リストに未だ掲載されていないデータセットがございましたら、コメント欄にて御指摘をいただけますと幸いです!•

次の

データセットとは

機械 学習 データ セット

AI(人工知能)のアプリを作成するときに必ず必要になるものに学習データがあります。 AI(人工知能)の性能はサンプルデータとしてどのようなデータを利用して学習するかで大きく変わり、実際、本年度のAI(人工知能)のコンテストで突然、中国の研究グループが上位に入賞するようになったのもこのAI(人工知能)の学習に必要なサンプルデータが非常に多く集められたからともいわれております。 GoogleやMicrosoft、Amazon等の大規模にWebサービスを展開している企業では内部に非常に多くのデータを持っているので必要に応じてAI(人工知能)の学習の為のサンプルデータを準備することは可能でしょう。 しかし、企業に属さない個人の研究者やこれからAI(人工知能)を研究する人にとってこれらのデータは入手できないので、公開されているサンプルデータを利用する必要があります。 この記事では、AI(人工知能)の学習をはじめとしたデータ分析に利用できる、公開されているサンプルデータについてご紹介します。 それでは、AI(人工知能)の学習やデータ分析に利用できるサンプルデータに関して見ていきましょう。 Yahooファイナンスでは1983年から現在までの35年近くの株式データを公開しております。 ファイルで入手するためにはYahooファイナンスのプレミアム会員になる必要があり入手は容易ではありませんが、少しコードを書ける人であれば、簡単に入手のできる株式データです。 為替・株式は時系列分析の研究に非常に役立つデータなのでAI(人工知能)で株式予測に興味が無くても、時系列分析や、回帰予測に関して興味があるのなら一度は入手して分析してみると良いでしょう。 その他のサンプルデータ その他にも、 顔や医療、動画といったAI(人工知能)を用いてデータ分析するためのサンプルデータは存在しており、サイトを探すと非常に多くのサンプルデータが入手可能。 ここで紹介したサンプルデータ以外も探すことをお勧めします。 この記事では、AI(人工知能)を実装するための代表的なライブラリscikit-learnに付属するサンプルデータ、Kaggleのチュートリアル、画像系、為替・株式のデータセットの紹介をしました。 冒頭でも紹介した通り、AI(人工知能)のアプリケーションを作成する場合、多くのサンプルデータを使用してAI(人工知能)に学習させ分析精度を上げて行く必要があります。 個人の研究者ではなかなかAI(人工知能)の学習に必要なデータを収集することは難しいでしょう。 その為、ここでは無料で利用できるサンプルデータを紹介しました。 今後、自分でAI(人工知能)のアプリケーションを作成する機会があったならば、ここで紹介した内容を参考に自分の目的適したサンプルデータを用意してテストして、AI(人工知能)を実装するスキルアップに役立てていきましょう。

次の