私は私の仕事の中で失敗した機械学習モデルをたくさん見てきました。 私は、複数の組織と協力してモデルとチーム、そしてそれらをサポートする文化を構築しました。 私の経験では、モデルが失敗する理由の1つは、チームが 最小限の実行可能な製品 (MVP)。
実際、製品開発のMVP段階をスキップすることは、あるレガシー企業がどのように分析チーム全体を解散させたかということです。 当初のチームはマネージャーの指揮を仰いでNoSQLデータベースを使用することを選択しましたが、チームの誰もNoSQLの専門知識を持っていませんでした。 チームはモデルを作成し、アプリケーションの規模を調整しようとしました。 しかし、ユースケースには不適切なテクノロジーを使用して製品の拡張を試みたため、顧客に製品を提供したことはありませんでした。 企業のリーダーシップは、投資の利益を見たことがなく、データ・イニシアチブへの投資はリスクが高く、予測不可能であると結論付けました。
そのデータチームがMVPで始まったのであれば、そのモデルの問題を診断できただけでなく、安価で適切な技術の代替案に切り替えてお金を節約することもできました。
従来のソフトウェア開発では、MVPは「リーン」開発サイクルの共通部分です。 彼らは市場を探求し、製品に関連する課題を学ぶ方法です。 対照的に、機械学習製品開発は、複雑なシステムから迅速かつ確実に習得するのが難しいため、痩せた訓練になるために苦労しています。
しかし、MLチームの場合、MVPを構築することは絶対必要です。 モデルの弱点がデータの品質不良に起因する場合、モデルを改善するためのすべての投資は、プロジェクトに投じられた金額に関係なく、失敗する運命にあります。 同様に、モデルが適切に配備または監視されなかったためにモデルが成績不足になった場合、データ品質の向上に費やされる金額は無駄になります。 チームは、まずMVPを開発し、失敗した試行から学ぶことによって、これらの落とし穴を回避することができます。
機械学習への投資収益率
機械学習のイニシアチブには、新しいデータパイプライン、データ管理フレームワーク、データ監視システムの設計など、多大なオーバーヘッドが必要です。 そのオーバーヘッドの仕事は、ほとんどのハイテクリーダーが慣れていない「S」字型の投資収益率曲線を生み出します。 このS字型ROIが機械学習プロジェクトに内在していることを理解していない企業のリーダーは、プロジェクトを早期に放棄し、失敗と判断してしまう可能性があります。
残念ながら、プロジェクトを早期に終了することは、ROI曲線の「基盤を構築する」段階で起こります。多くの組織は、チームが次の段階に十分に進歩することを許しません。
失敗したモデルは良いレッスンを提供します
後からではなく、早急に製品の弱点を特定することで、何十万ドルも節約できます。 潜在的な短所を事前に発見することは、データ製品ではさらに重要です。たとえば、テクノロジーの選択からデータの品質や数量、パフォーマンスのモデル化から統合化まで、サブパートの推奨システムの根本原因があるからです。 出血を避けるために、早期診断が重要です。
たとえば、機械学習の開発のMVP段階を前にして、新しい検索アルゴリズムを導入していたある企業が、そのデータの低品質を識別する機会を見逃していました。 その過程で、顧客は競争相手を失い、データ収集プロセスを修正するだけでなく、最終的にはモデル開発を含むすべてのステップをやり直す必要がありました。 その結果、誤った技術への投資と、10人のエンジニアとデータ科学者のチームのために6カ月分の人的時間が費やされました。 また、そのチームのいくつかの主要メンバーの辞任につながった。 退職した各従業員の1人当たりの交換費用は7万ドルです。
もう1つの例では、A / Bテストに大きく依存してモデルの実行可能性を判断していました。 A / Bテストは、市場を調査するための素晴らしいツールです。 それらは、実際の成功に常に密接に関連していない理論的な指標を使用して構築されることが多いため、機械学習製品にとって特に重要なツールです。 しかし、多くの企業では、機械学習アルゴリズムの弱点を特定するためにA / Bテストを使用しています。 A / Bテストを品質保証(QA)チェックポイントとして使用することで、プロトタイプを生産に送る前に、開発の遅れているモデルやシステムを停止する機会を逃してしまいます。 典型的なMLプロトタイプでは、実際の製品になるまでに12〜15人のエンジニアが必要です。 その予測に基づいて、MVPを最初に作成することに失敗すると、最終製品がうまくいかない場合、典型的には50,000ドル以上の損失となります。
あなたが保護している投資
人件費は単なる考慮事項です。 一歩踏み込んで、まずMVPを構築して保護する必要があるAIへの広範な投資について話し合ってみましょう。
データ収集。 データ取得コスト あなたの建物の製品のタイプとデータの収集および更新頻度に応じて異なります。 IoTデバイス用のアプリケーションを開発する場合は、エッジ上に保持するデータと、チームが多くのR&D作業を行うことができるクラウドにリモートで格納するデータを特定する必要があります。 電子商取引ビジネスの場合、データを収集することは、ウェブサイトに新しいフロントエンド計測器を追加することになります。応答時間が著しく遅くなり、全体的なユーザーエクスペリエンスが低下し、潜在的にお客様のコストがかかります。
データパイプライン構築。 データを転送するためのパイプラインの作成は、幸運なことに1回のイニシアチブですが、コストも時間もかかります。
データストレージ。 しばらくの間、コンセンサスは、データストレージが次第に商品化されつつあるということでした。 しかし、ムーアの法則は、私たちが収集するデータ量の成長率を補うにはもう十分ではないという兆候がますます多くあります。 これらの傾向が真実であれば、ストレージはますます高価になり、私たちは最小限のものに固執する必要があります。本当に情報と実行可能なデータだけです。
データクリーニング。 ボリュームが常に増加している中で、データ科学者が利用できるデータ量は、機会と責任の両方になっています。 小麦を籾殻から分離することは、しばしば困難で時間がかかる。 そして、これらの決定は、典型的には、モデルの開発を担うデータ科学者によって行われる必要があるため、そのプロセスはすべてより高価です。