CONTACT
Technology

生物特化型AIと高品質学習データセット (Biodiversity AI & High-Quality Datasets)

約6分で読めます

概要

現在の生成AIブーム(LLM)は、Web上の膨大なテキストデータを学習することで実現しましたが、「生物(自然界)」の領域には、まだ学習に足る「質・量ともに十分なデータセット」が存在しません。 IKIMONは単なるアプリ運営にとどまらず、「世界最高品質の生物画像データセット」を構築し、日本発の生物特化型基盤モデル(Large Nature Model: LNM)を生み出すことを目指します。これは、未来の子どもたちがスマホ一つで「ポケットの中の専門家」を持ち歩く世界を作るための必須インフラです。

現状の課題:なぜ今のAIは生物に弱いのか?

1. 「ロングテール」の壁(データの偏り)

世界最大のiNaturalistのデータセットでも、スズメやモンシロチョウのような「ありふれた種」の画像は数万枚ありますが、絶滅危惧種やマイナーな昆虫は数枚(あるいはゼロ)しかありません。 AIはデータが多いものは得意ですが、少ないものは学習できず、結果として「レアな種ほど無視される(誤同定される)」という、保全上もっとも避けたい事態が起きています。

2. 「誤同定の再生産」サイクル

多くのアプリが「AIによる自動提案」を導入していますが、初心者が「AIが言うなら正しいだろう」とそのまま登録してしまうケースが多発しています。
  • 誤ったデータが「正解」としてDBに登録される
  • 次のAIがその誤ったデータを学習する
  • 誤同定が強化され、誰も間違いに気づけなくなる
この悪循環(負のフィードバックループ)が、現在の生物AI界の大きな課題です。

3. コンテキストの欠如

今の画像認識AIの多くは「成体のきれいな写真」で学習しています。しかし、実際の自然観察では:
  • 「ピンボケ」「後ろ姿」「一部分だけ」
  • 「幼虫」「卵」「抜け殻」「フン」「足跡」
といった多様な状態が見つかります。これらを統合的に判断できるデータセットは世界的に見ても不足しています。

4. 空間バイアスと "Luxury Effect" (贅沢効果)

市民科学データには、「裕福な都市部ほどデータが集まりやすい」という強烈なバイアス(Luxury Effect)が存在します。
  • 理由:裕福なエリアは緑地が多く(生物が多い)、かつ住民にスマホで観察する「時間的・精神的余裕」があるため。
  • 弊害:AIの学習データが「都市の公園にいる生き物」に偏り、本来の生息地である「地方の山間部(過疎地)」のデータが学習されず、AIが"都会っ子"になってしまう。

IKIMONの戦略:Japan as a "Data Sanctuary"

1. 日本の「撮影力」を活かす

日本には、世界的に見ても極めてレベルの高い「アマチュア写真家・ナチュラリスト」が多数存在します。彼らが撮る写真は、学術標本並みに高精細で、芸術的です。 IKIMONは、この「日本の撮影技術」を活かした、ノイズの少ない「図鑑級データセット」の構築を目指します。量だけでなく「質」を重視したアプローチです。

2. バリデーション・ファースト (Validation First)

AIサジェストはあくまで「補助」に留め、データの確定には必ず「信頼できる人間の目(専門家・熟練ユーザー)」を通すフローを確立します。 「誰が同定したか」という信用スコアをデータに付与することで、AI学習時には「信頼度Aの画像のみを使う」といったフィルタリングが可能になり、誤学習を防ぎます。

3. "Life Cycle" Dataset(生活史データセット)

単に「種名」を当てるだけでなく、その生き物の「状態」まで理解できるAIを作ります。
  • マルチステージ学習:卵 → 幼虫 → 蛹 → 成体 の各段階をラベル付けして学習。
  • フィールドサイン学習:フン、食痕、巣穴など、「本体以外」の痕跡も学習対象とします。
これにより、「葉っぱについた食痕から、犯人の虫を特定する」といった、ベテラン自然観察員にしかできない推理をAIが可能にします。

未来像:Large Nature Model (LNM) の構築

IKIMONが目指すのは、画像と言語を組み合わせた「自然界のマルチモーダル基盤モデル」です。

  • 入力:スマホで撮った「謎の幼虫」の写真と、GPS情報(場所・時期)。
  • AIの思考
1. 画像解析:「これはアゲハチョウ科の幼虫の特徴だ」 2. 地理推論:「この場所(北海道)で、この時期(10月)に見られるのは〇〇だけだ」 3. 生態推論:「食べている葉っぱがキハダだから、ミヤマカラスアゲハの可能性が高い」
  • 出力:「これはミヤマカラスアゲハの幼虫です。もうすぐサナギになりますよ。近くにキハダの木がありませんか?」
ここまでできて初めて、子どもたちは「ゲームのように」自然を楽しむことができます。 日本という生物多様性ホットスポット兼テクノロジー大国だからこそ、この「最強の生物AI」を作る責務とチャンスがあります。

IKIMONが目指す世界

「専門家じゃないから、自然のことは分からない」

そんな壁を、テクノロジーで壊したい。

散歩中に見つけた虫を撮る。AIが「これかも」と教えてくれる。詳しい人が「それで合ってるよ」と言ってくれる。 そうやって集まったデータが、日本の自然を守るための貴重な科学データになる。

誰もが「発見者」になれる社会。 それがIKIMONの作りたい未来です。

1 / 6