タグ: ②機械学習

  • memeplexの誕生

     9月12日記述の作者(Shimizu氏)による誕生秘話より抜粋

    1.Stable Diffusionの登場

     無料の作画AIモデル「Stable Diffusion」が全世界に公開される
       1枚あたりの作画時間はわずか数秒、
       生成された絵の再構成もできる等の
       非常に自由度が高くかなり具体的な絵が描けるモノであった

     たまたま夜中に目が覚めてしまい
       「Stable Diffusion」がどれほどの実力なのか確かめてやろうと、
       試しにPythonのコンソールを起動する

     2時間後、朝日が昇る頃には、
       「日本語で入力すると、英語に翻訳してStable Diffusionに投入する」
       無名のWebサービスを立ち上げる

     「絵を描きたい」という欲求はかなり限定的であり、
       万人が使いたがるサイトになるとは考えていなかった


     ログイン画面

      指示画面

    2.サービス開始

     サービス開始の翌日、グーグルからの請求書を見て驚く
       1日の利用料金が1万円を突破していた

       Stable Diffusionを使う前は、数百円~数千円が請求されるサイトが
         初日で1万円を超えるというのは尋常じゃない、と分かる

       2時間のやっつけで作ったサービスだったため設計がまずかった
         結果、大量のアクセスをお金で捌く、みたいな構造になっていた


         請求金額

    3.緊急対応 Memeplex.appの誕生

     緊急開発でまずサイトを無料会員制に移行し
       名称を「Memeplex.app(ミームプレックス)」とする
         Googleアカウントだけで誰でもサインオンでき
         文化的遺伝子であるミーム(meme)によって構成(plex)される
           ※ミームとはインターネット上で流行るネタ

     作画リクエストのキュー(作画の処理待ち)を一人一人が個別に持つようにし
       数日かけてサーバー負荷を減らす仕組みにする

    4.コスト問題

     作画を担当する高性能なGPU(Graphics Processing Unit)マシンが不足する
       当初は開発用のGPUマシン数台でMemeplexの作画をやりくりする
       ユーザーが増えてくると殺到するリクエストをさばききれなくなる

       追加購入することにして見積もってみると1台35万円になる
         AIでの作画には高性能なパソコンでが必要

     膨大な電気代が心配になる
       24時間、空調で冷やし続ける必要があることを考えると、
       電気代が月に十万円を突破しそうなことは想像できる

     正直、途方に暮れる

    5.救いの神

     助け舟をだしてくれたのが、さくらインターネットの田中社長
       「お困りでしょう、すぐにGPUサーバーを用意します」
       石狩のデータセンターにあるGPUサーバーを9台を、
       無償で貸していただける

       一度に申し込める限界の9台を申し込む

     さくらの高火力サーバーを使うと数秒で1枚の作画を完了できる
       並列処理で9つの画像を同時に作図している

  • 機械学習の主な用途

    1.クラスタリング(clustering)

     データ間の類似度にもとづいて、データをグループ分けする
       教師なしの学習で行う、データの特徴を学習した上でグループ分けをする
       ユーザの嗜好をグループ化する場合に使用する

    2.クラス分類classification

     事前にクラスが割り当てられたサンプルをクラスごとに分類する
       教師あり学習で行う、先にクラスに関する情報が必要となる
       迷惑メールの分類や画像の識別に使用する

    3.レコメンデーション(recommendation)

     ユーザの過去の購入履歴や閲覧履歴からおすすめの商品やコンテンツを表示する
       ECサイトの「おすすめ」に使用されている
       情報サイトや動画配信サービスなどで活用されている

    4.回帰(regression)

     過去の連続する値から次の値を予測する
       宣伝広告費と来店者数の関係を分析する際に使用する
       売上高や株価、機器の需要予測に使用する

    5.情報圧縮(information compression)

     データの特徴を維持しながらデータ量を減らす
       データをぎゅっと小さくする
       相関関係がある場合に片方のデータだけ残す際に使用する