オセロニア 26。 【オセロニア】疾風迅雷!竜統一速攻デッキ(竜パ)の戦い方・おすすめレシピ

【オセロニア】白の塔【27階】攻略とおすすめデッキ|ゲームエイト

オセロニア 26

【コンボスキル】ぐりむリーパー! 系統「ダメージ」 【最大Lv1】特殊ダメージ:2枚以上ひっくり返せるマスで発動できる。 通常攻撃ダメージの1. 4倍の特殊ダメージを与える。 通常攻撃ダメージの1. 5倍の特殊ダメージを与える。 自分のスキル発動時のHPが減少する程ダメージが上昇し、最大4200の特殊ダメージを与える。 【コンボスキル】悪鬼の賊心 系統「その他」 【最大Lv1】マス変換:盤面の通常マスをランダムで2個敵用のダメージBマスに変換する。 通常攻撃が1. 9倍になる。 【コンボスキル】フォースラッシュ 系統「バフ」 【最大Lv2】攻撃力アップ:このキャラを含む盤面の自分の神駒1枚につき、通常攻撃が1. 3倍になり、最大で1. 9倍になる。 S ジェンイー 【基本情報】 属性:竜 印:闘士印 コスト:20 使用制限:1 入手方法:超駒パレード 【ステータス】 HP 最大値 1126 ATK 最大値 1276 【スキル】カイザードラグーン 系統「バフ」 【最大Lv2】[貫通]攻撃力アップ:ターン開始時の盤面の自分の駒の総数が12枚以下のときに発動できる。 通常攻撃が1. 8倍になる。 このターン与える通常攻撃ダメージは、相手の防御・罠・カウンターの効果を受けない。 【コンボスキル】フレイムエンペリオン 系統「バフ」 【最大Lv2】攻撃力アップ:このキャラも含む盤面の自分の竜駒1枚につき、通常攻撃が1. 3倍になり、最大で2. 1倍になる。 自分のスキル発動時のHPが減少する程ダメージが上昇し、最大4100の特殊ダメージを与える。 自分のスキル発動時のHPが減少する程ダメージが上昇し、最大4800の特殊ダメージを与える。 2倍になり、最大で1. 8倍になる。 このターン与える通常攻撃ダメージは、相手の防御・罠・カウンターの効果を受けない。 【コンボスキル】フォーシブルアサルト 系統「バフ」 【最大Lv1】攻撃力アップ:2枚以上ひっくり返せるマスで発動できる。 通常攻撃が1. 7倍になる。 通常攻撃が1. 6倍になる。 このターン与える通常攻撃ダメージは、相手の防御・罠・カウンターの効果を受けない。 通常攻撃が1. 7倍になる。 自分のスキル発動時のHPが減少する程ダメージが上昇し、最大5000の特殊ダメージを与える。 【コンボスキル】竜顕闘技 系統「バフ」 【最大Lv1】【リンク】攻撃力アップ:ターン開始時、盤面に自分の神駒が3枚以上のとき発動できる。 ターン開始時の盤面の相手の竜駒1枚につき、通常攻撃が1. 2倍になり、最大で2倍になる。 1倍になる。 さらに自分の竜駒の通常攻撃ダメージは、相手の防御・罠・カウンターの効果を受けない。 【コンボスキル】インペリアル・ラス 系統「バフ」 【最大Lv1】攻撃力アップ:自分のHPが減少するほど通常攻撃が上昇し、最大で1. 9倍になる。 通常攻撃ダメージの1. 6倍の特殊ダメージを与える。 S ハロウィン・ヴィクトリア 【基本情報】 属性:神 印:天界印 コスト:20 使用制限:1 入手方法:ハロウィン記念ガチャ17 【ステータス】 HP 最大値 1415 ATK 最大値 885 【スキル】パンプ器グアトリガ 系統「ダメージ」 【最大Lv2】特殊ダメージ:ターン開始時の盤面の駒の総数が20枚以上のときに発動できる。 通常攻撃ダメージの1. 5 倍の特殊ダメージを与える。 【コンボスキル】女神式ハロウィン 系統「ダメージ」 【最大Lv2】特殊ダメージ:1枚ちょうどひっくり返せるマスで発動できる。 【コンボスキル】イエローラパス 系統「ダメージ」 【最大Lv1】特殊ダメージ:自分のスキル発動時のHPが減少する程ダメージが上昇し、最大3600の特殊ダメージを与える。 この駒が盤面で表になっている2ターンの間、相手の手駒のキャラ駒をランダムで1つ混乱状態にする。 混乱状態の駒は置く場所を指定することができない。 【コンボスキル】ニグル・ミスティーク 系統「その他」 【最大Lv1】マス変換:盤面の通常マスをランダムで8個「?」マスに変換する。 ひっくり返した後に盤面にある相手のコンボスキルをランダムで2つ、無効にする。 与えるダメージは毎ターン50ずつ上昇する。 【コンボスキル】ヴァーティカルウェブ 系統「バフ」 【最大Lv1】攻撃力アップ:自分のHPが減少していないほど通常攻撃が上昇し、最大で1. 8倍になる。 S ゼルエル 【基本情報】 属性:神 印:天界印 コスト:20 使用制限:1 入手方法:エクストラパックVol. 特殊ダメージ:自分のスキル発動時のHPが減少する程ダメージが上昇し、最大4200の特殊ダメージを与える。 【コンボスキル】神域のゼストリア 系統「ダメージ」 【最大Lv2】回復:自分のデッキに神駒が10枚以上入っていると発動できる。 S ハクア 【基本情報】 属性:神 印:天界印 コスト:20 使用制限:1 入手方法:神コレクション 【ステータス】 HP 最大値 1476 ATK 最大値 1064 【スキル】ディバイン・ブライト 系統「ダメージ」 【最大Lv2】[リンク]特殊ダメージ:自分のデッキの駒がすべて神属性のとき発動できる。 【コンボスキル】ソル・ジャッジメント 系統「ダメージ」 【最大Lv2】[リンク]特殊ダメージ:自分のデッキの駒がすべて神属性のとき発動できる。 ターン開始時に盤面にある相手の罠をランダムで1つ、無効にする。 【コンボスキル】マッディストリーム 系統「その他」 【最大Lv1】マス変換:2枚だけひっくり返せるマスで発動できる。 この駒の周囲のまだ駒が置かれていないマスをランダムに1個共用の竜強化マスに変換する。 このキャラも含む盤面の自分の竜駒1枚につき、通常攻撃が1. 3倍になり、最大で2倍になる。 【コンボスキル】インペリアルゲイン 系統「バフ」 【最大Lv1】【リンク】攻撃力アップ:ターン開始時、盤面に自分の竜駒が2枚以上のとき発動できる。 このキャラも含む盤面の自分の竜駒1枚につき、通常攻撃が1. 2倍になり、最大で2倍になる。 4倍になる。 このターン与える通常攻撃ダメージは、相手の防御・罠・カウンターの効果を受けない。 【コンボスキル】秘義・朧華 系統「バフ」 【最大Lv1】【リンク】攻撃力アップ:自分のデッキに竜駒が10枚以上入っていて、2枚ちょうどひっくり返せるマスで発動できる。 通常攻撃が1. 5倍になる。 S クロード 【基本情報】 属性:竜 印:幻獣印 コスト:20 使用制限:1 入手方法:速攻コレクション 【ステータス】 HP 最大値 989 ATK 最大値 1575 【スキル】サンダーフォース 系統「バフ」 【最大Lv1】【特攻】攻撃力アップ:ターン開始時、盤面に自分の神駒が1枚もないときに発動できる。 通常攻撃が2倍になる。 【コンボスキル】ライトニング・ゼロ 系統「バフ」 【最大Lv1】【リンク】攻撃力アップ:自分のデッキに竜駒が10枚以上入っていると発動できる。 通常攻撃が1. 5倍になる。 与えるダメージは毎ターン100ずつ上昇する。 【コンボスキル】暗技・疾風刃 系統「ダメージ」 【最大Lv1】特殊ダメージ:ターン開始時の相手のHPの12. 5%の特殊ダメージを与える。 1 【ステータス】 HP 最大値 1346 ATK 最大値 1233 【スキル】叡獄の大鎌 系統「ダメージ」 【最大Lv2】特殊ダメージ:ターン開始時の相手のHPの14%の特殊ダメージを与える。 【コンボスキル】禍々しき笑み 系統「その他」 【最大Lv2】吸収:2枚以上ひっくり返せるマスで発動できる。 相手HPを1000吸収し、自分のHPを回復する。 【コンボスキル】アビスゲート 【最大Lv2】特殊ダメージ:ターン開始時、盤面に自分の魔駒が3枚以上のとき発動。 S ファヌエル 【基本情報】 属性:魔神 印:天界印 コスト:20 使用制限:1 入手方法:ファヌエルから進化 【ステータス】 HP 最大値 2492 ATK 最大値 1358 【スキル】導者・エスペランサ 【最大Lv3】[リンク]召喚:ターン開始時、盤面に自分の神駒が1枚以上の時に発動できる。 盤面で表になっている3ターンの間、ターン開始時の盤面の駒のうち、自分の駒でキャラ駒でない駒にランダムで1つエスペランサを召喚する。 【コンボスキル】神罰・デセスペランサ 【最大Lv3】特殊ダメージ:自分のスキル発動時のHPが減少する程ダメージが上昇し最大5000の特殊ダメージを与える。 S ベルゼブブ 【基本情報】 属性:魔 印:闘士印 コスト:20 使用制限:1 入手方法:超駒パレード 【ステータス】 HP 最大値 2035 ATK 最大値 1432 【スキル】カウリオドゥース 【最大Lv3】攻撃力アップ:このキャラも含む盤面の自分の魔駒1枚につき、通常攻撃が1. 4倍になり、最大で2. 1倍になる。 【コンボスキル】グラットニーオーダー 【最大Lv3】攻撃力アップ:このキャラも含む盤面の自分の魔駒1枚につき、通常攻撃が1. 3倍になり、最大で2. 1倍になる。 S シェンメイ 【基本情報】 属性:竜 印:幻獣印 コスト:20 使用制限:1 入手方法:超駒パレード 【ステータス】 HP 最大値 1248 ATK 最大値 1528 【スキル】岩をも通す一念 【最大Lv1】[貫通]このターン与える通常攻撃ダメージは、相手の防御罠カウンターの効果を受けない。 【コンボスキル】奥義・竜牙神仰拳 【最大Lv2】[貫通]攻撃力アップ:通常攻撃が1. 9倍になる。 このターン与える通常攻撃ダメージは、相手の防御罠カウンターの効果を受けない。 2倍になる。 【コンボスキル】コンボスキルなし S デメテル 【ステータス】 HP 最大値 1505 ATK 最大値 695 【スキル】大地の祝福 ターン開始時、盤面に自分の神駒が3枚以上のとき盤面に配置されたら発動。 盤面で表になっている間、毎ターンHPを700回復する。 S 烏天狗・カルラ 【ステータス】 HP 最大値 1121 ATK 最大値 742 【スキル】影縫い ターン開始時の盤面の駒の総数が12枚以上のときに発動できる。 2300の特殊ダメージを与える。 【コンボスキル】紫炎抜刀 ターン開始時の盤面の駒の総数が24枚以上のときに発動できる。 3300の特殊ダメージを与える。 S ドュルジ 【ステータス】 HP 最大値 1552 ATK 最大値 1180 【スキル】ヴェノム 盤面に自分の魔属性の駒が3枚以上ある時に発動できる。 盤面で表になっている間、毎ターン900のダメージを相手に与える。 【コンボスキル】ディザスタービーム 相手のHPの12. S ドルシー 【ステータス】 HP 最大値 1220 ATK 最大値 1054 【スキル】恐怖の眼光 自分のデッキに魔駒が10枚以上入っていると発動できる。 相手は次のターン、手駒でATKが一番大きい駒しか使えなくなる。 【コンボスキル】悪意なき破壊 自分のデッキに魔駒が10枚以上入っていると発動できる。 【コンボスキル】痛いの痛いの飛んでけ 盤面のまだ駒が置かれていないマスをランダムで6個回復マスに変換する。 S オルグドラゴン 【ステータス】 HP 最大値 1295 ATK 最大値 1333 【スキル】プロテクションメラ 2枚以上ひっくり返せるマスで発動できる。 ターン開始時に盤面にある相手の罠をランダムで2つ、無効にする。 【コンボスキル】イグナイテッド 自分のHPが減少していないほど通常攻撃が上昇し、最大で1. 6倍になる。 S 堕竜・ダウンフォール 【ステータス】 HP 最大値 1220 ATK 最大値 1300 【スキル】裁キノ言霊 ターン開始時、盤面に自分の竜駒が3枚以上のとき発動できる。 通常攻撃が1. 8倍になる。 【コンボスキル】最終審判 ターン開始時、盤面に自分の竜駒が3枚ちょうどのとき発動できる。 通常攻撃が1. 8倍になる。 S 刃鎧竜・ラムシオン 【ステータス】 HP 最大値 1268 ATK 最大値 1425 【スキル】トルネード・エッジ 2枚以上ひっくり返せるマスで発動できる。 通常攻撃が1. 6倍になる。 【コンボスキル】エルダー・ブレイヴ ターン開始時、手駒に自分の竜駒が2枚ちょうどのとき発動できる。 通常攻撃が1. 6倍になる。 受給までを無料アドバイスしています。 いつ手に入れても良いように素材を集めていたので、すぐに闘化も出来ました。 おかげで呪いデッキっぽくなりました。 — オセロニアガチャ検証 OjU6asAAqPlJyIY お昼にオセロニアガチャ11連引いたらS駒2枚来た! — 桜庭昌人 夢奏のミク廃 SakurabaMasato 10連ガチャ🎵 — 甘い罠師 c3YCd6ngk4jvPAE めげずに今日も超駒ガチャ10連。 ふー、終わった。 今月のガチャ終わった。 S確実に来るのが凄いかな。 ファヌエル来たよ。 やっと通常アズリエルの闘化以外揃いました……。 ネウが当たったから勝ち。 またアズリエル出てるし。 アズ、ヴィク、レグスの3体に関しては本当によく出るのに… イシスは久しぶりにガチャで出たな。 総じてA駒はゲールノートと八房がよく出た印象。

次の

【逆転オセロニア】好きなキャラクターランキングTOP10!

オセロニア 26

これに先駆けて、2019年1月25日(金)から「3周年前夜祭」を開催します。 本イベントでは、配信開始からのログイン日数に応じて、最大5回無料で「10+1回ガチャ」が引ける「スペシャルサンクスガチャ」のほか、3周年に向けたキャンペーンや、決戦イベント「毎日1回限定!前夜の間」など多数のイベントを開催します。 なお、本イベントの詳細は、3周年特設サイトで確認できます。 本プレミアムガチャは、プレイヤーのログイン日数に応じて、最大5回まで無料の「10+1回ガチャ」を引くことができます。 また、本プレミアムガチャの開催期間中は、特定のキャラクター(駒)の出現率がアップしています。 なお、出現率がアップしているキャラクター(駒)は、ゲーム内ニュースで確認できます。 本キャンペーンでは、すべてのプレイヤーが集めたポイントの累計に応じて、3周年イベントで登場する特別なガチャのラインナップが豪華になります。 このポイントの累計が3億に達すると、神属性激超レアSキャラ「ファヌエル(CV:置鮎龍太郎)」などの超駒Sキャラクター(駒)がラインナップに追加されます。 なお、ポイントはプレイヤー1人あたり、ログイン1回ごとに100ポイント、「3周年特別!ミッションチャレンジ!」の全ミッションクリアで10,000ポイントを獲得できます。 また、本キャンペーンにあわせて、特別なガチャを引くことができるアイテム「夢のかけら」が登場予定です。 本セールでは、「エンデガ(A)」「ブランジェッタ(A)」など、バトルコインで交換できる全26体のキャラクター(駒)から1体のみ、通常は100枚の消費コインを30枚で入手できます。 本イベントは、1日1回のみクリア可能です。 クリアすると、経験値やゴールドを大量に獲得することが可能です。 なお、「3周年前夜祭」の詳細は、ゲーム内ニュースで確認できます。 本着せかえでは、『逆転オセロニア』でおなじみの「蘭陵王(らんりょうおう)」「ランドタイラント」などのキャラクター(駒)が、 ちびキャラのデザインでLINEの画面を彩ります。 なお、本着せかえの詳細は、LINE STORE内ゲーム特集で確認できます。

次の

『逆転オセロニア』が『モンスト』との超豪華コラボを2月21日(金)より開催!

オセロニア 26

オセロニアにおける駒がどのような特徴を持つかなど,オセロニアで用いられる基本的な用語の意味を以下に示す. 駒(キャラクター駒) オセロニアにおいて白または黒の駒(リバーシにおけるディスクの役割を担っている)にはそれぞれキャラクターが宿り,条件を満たすことで対戦相手や自分にダメージや,特殊な効果をもたらす.リバーシのルールによってほかの色に挟まれ,一度でも色を反転させられると駒に宿るキャラクターや継続的に発生している効果は消失する.駒には属性(神・魔・竜) が存在し,属性ごとに「神は耐久値が高め」,「魔はトリッキーな戦術向き」,「竜は攻撃力が高め」という傾向が存在する. 個々の駒のスキルなど,より詳細なルールは参考サイト[], []に記載されている. 3.オセロニアにおけるゲームバランス オセロニアに限らず PvP の対戦ゲームのゲームバランスとは,プレイヤーのプレイ戦術以外の何らかの要素で勝敗に大きな偏りを産んでしまわないかが重要になる.たとえば,将棋のようなターン制ゲームで後攻が必ず勝つ戦術が容易に見つかる場合,それはゲームバランスが崩壊しているといえる .ナッシュ均衡解が容易に見つかる簡単な零和ゲーム と異なり,将棋や囲碁などのナッシュ均衡解が見つかっていない複雑なゲームでは,初期状態(先攻・後攻)のみからでは勝敗は分からない .しかしこれらのゲームとは異なり,近年の対戦ゲームではプレイヤーの対戦開始時に有している初期条件(先攻・後攻以外の要素)が互いに異なる場合が多い.オセロニアであればこの初期条件にデッキの内容が該当する. 3. 他方,囲碁は非常に取り得る状態数が多く,さまざまな戦略を相手取るため,人工知能が人間に対戦で勝利するのは困難と考えられていた.しかし近年,ゲーム木探索,深層学習,強化学習の知見の融合により人間のプロプレイヤーに勝る強さをAIプレイヤーが示し,チェスや将棋などの二人零和完全情報ゲームへ転用可能なアルゴリズムとして発表されている[]. 1 学習ゲーム課題としての逆転オセロニア 前述の通り,人工知能技術は深層学習と強化学習やゲーム木探索との融合により,従来不可能だったゲームプレイの学習を可能とした.他方,既存のゲーム課題での強化学習における行動の学習には,深層ニューラルネットワークなどによる関数近似が用いられるが,多くの場合,出力はあらかじめ固定の行動種類数で学習される. しかし現在の一般に頒布されている最新ゲームにおいては,前述の通りゲーム内容がオンラインに更新されていき,入力情報や出力行動数が増加するなど,レトロなビデオゲームにはない性質を持つ.これは入出力の増加に応じて学習ネットワークも指数的に巨大化するため,更新が継続的に続いていくと学習が困難なネットワークサイズになることを意味している.このように現代のゲームで深層強化学習を行うためには,増加していく入出力サイズを前提とし,それに対処する必要がある.たとえば,学習課題と見なしたときのオセロニアは以下の特徴を有する. (1)二人零和不完全情報ゲーム(本研究では課題の簡略化のため完全情報に変更)• (2)ターン制かつ1ターンにつき1回の行動選択• (3)可能な行動の集合が現在の手駒,場の駒配置で決定• (5)駒が盤面にとどまるため,すべての駒を離散的に定義すると,駒の種類数の増加に対して指数的に状態空間が拡張される• (6)手駒としての駒の出現順番が確率的で予測不能なため,ゲーム木探索が有効ではない• (7)デッキの組合せが数多くあるため,すべてに対応としようとする場合は膨大なパターンへのマルチタスク学習になる 5.研究目的:オセロニアにおける戦術AIを作る困難の解決 オセロニアでは入力情報でありながら行動としての出力でもある駒の種類数がゲームの更新のたびに増え続けていく.そのため人工知能のアーキテクチャはその増加を前提に設計する必要がある.クラスタリングにより膨大な数の入出力を抽象化する手法は存在するが,ゲーム進行上のそれぞれの駒の特徴や役割は複雑かつ自明ではないため,有効とは限らない. また,人手による個々の駒の特徴量のハンドエンジニアリングも頻繁にゲームが更新されるため,現実的ではない. そこで本研究では,状態・行動両方の要素である駒の特徴を状態遷移軌跡 から自動的に分散表現としてベクトルに埋め込む表現学習手法を提案する. 後述する提案手法は膨大かつ拡張されうる駒の種類数の長さを持つ one-hot ベクトルを,固定次元の実数ベクトル(表現ベクトル) に変換する( 図1).こうすることでプレイ戦術を学習する際のネットワークのサイズが駒の種類数に依存しなくなり,継続的な拡張に対処可能になる. この手法は逆転オセロニアに限らず,ゲーム要素が継続的に追加されるさまざまなゲームに有効であると考えられる. 図1 駒を表現するベクトルのサイズ(グレースケールの濃淡が値を表現) 6.プレイ戦術の学習 現在のゲーム状況に応じて適した行動を選ぶ人工知能を知能エージェントと呼ぶ(以下,断りがない場合,単にエージェントと記載する).エージェントは特定の評価関数や確率分布に基づき行動する.評価関数は人間が試行錯誤を元に数値化して設計することもできるが,ゲームが複雑になるほど良い評価関数を与えることは困難になる.その評価関数を何らかの手法で学習・自動獲得させることが深層学習の役割である.深層学習には膨大なデータが必要であるため,サービス向上のためにプレイヤーの対戦ログを収集しているオセロニアのようなオンラインゲームと相性が良い.その対戦ログから人間の選択を教師信号として教師あり学習(Supervised Learning,SL)を行うことで,人間の選択を模倣する評価関数を獲得することができる.教師あり学習で学習したエージェントも,本研究が目的とするリリース予定の新規駒のバランス調整にはある程度有効だと考えられる.しかしながら,それはバランス調整対象の駒がそれ以前の駒に類似している場合に限られ,まったく新しいスキル,ゲーム要素の追加に際してはデータのない未知の状況からの学習が必要になる.そこで重要になるのが,未知の環境から試行錯誤を通じてゼロから良い行動パターン(価値関数,行動選択確率分布=方策)を学習していく,強化学習(Reinforcement Learning,RL)という手法である.近年の研究では囲碁において深層強化学習で学習した方が対戦ログからの深層学習より高い成績を有することが示されている[].しかしここで前述の,オセロニアを始めとしたオンラインゲームが有する,ゲーム要素が追加されていく性質が深層ニューラルネットワークで行う教師あり学習,強化学習の両方にとって大きな問題になる. 6. そしてある行動選択肢の評価値の計算・学習には近似関数を使用する. また2値分類であるため,手駒中の選択されなかった駒,設置可能だが選択されなかったマスも学習データに用いる. しかし毎ターン選択可能な行動の種類数 A t の中で選択されない行動数 A t - 1 の方が圧倒的に多いため,学習時には負例(選択されなかった行動の入力ベクトル)はダウンサンプリングしている. 7. 4 ゲームシミュレータからの強化学習 本研究ではオセロニアのゲームシミュレータを用いて行動選択の強化学習も行った. またネットワークには Noisy-net [] を使用し,自律的な探索を促している.通常の Noisy-net [] を本アーキテクチャで用いると,行動がバッチ方向に展開されている都合上,すべての行動に同様のノイズがかかってしまう.そこで本研究では,最終出力のみ,バッチ方向にそれぞれ異なるノイズが発生するよう,バッチ数分のノイズサンプリングをするよう設計した. 7. 具体的には話者特徴を表現ベクトルとして埋め込むペルソナモデル[] を元に,状態行動対中の離散的な行動要素など,ある部分集合(オセロニアでは駒のことを指す)に,状態遷移の要因としての表現を表現ベクトルとして埋め込む方式を考案した. しかし良い行動の評価関数を作るため,実用上は一定のリテラシーを持ったエージェント,あるいはプレイヤーの対戦ログから得た状態遷移軌跡が望ましい. 8. しかしそれは現実的ではないため,何らかの別の特徴量を設計するのが妥当だと考えられる. 8. 3 表現ベクトル導入の効果 表現ベクトルのネットワークの入出力を固定するのみでなく,ユニット数の節約と学習時間の削減や,表現空間上での類似行動の汎化による学習の効率化が期待できる.また,ほかにもプレイ戦術の学習器に駒の表現の学習を任せなくてもよいため,プレイ戦術に特化した学習のチューニングサイクルが早くなる利点があげられる.以降の実験でその利点の検証を行う. 9.プレイ戦術の学習実験 本研究では表現ベクトルの導入しても成績が保たれているか,また学習時間の削減ができているか検証するため,それぞれ表現学習と教師あり学習(実験1),強化学習による行動評価値の学習(実験2)を組み合わせた際の実験により定量評価を試みた. 1 逆転オセロニアでのプレイ戦術学習の共有設定 実験1, 2ともに状態・行動特徴の中に存在する駒特徴には共通の表現ベクトルを用いた. また実験1の教師あり学習,実験2の強化学習には同様の中間層の構造を用いる. 各種学習器の構造やハイパーパラメータは 表1に示す通りである. また Dropout ,L2 正則化の汎化は表現学習,教師あり学習のみにしか使用しておらず,強化学習には使用していない. 表1 各種パラメータ 9. 1 入力特徴 各学習器の入力特徴は状態 s t としてターン数や選択側の色(白・黒),自分・敵の残り体力,手駒,デッキ,盤面などを,行動 a t には任意の選択可能な駒や設置可能なマス座標,スキルやコンボスキルなどの特殊効果の発動の可否を用いた. 表現ベクトルを使用しない場合は one-hot ベクトルを手駒,デッキ,盤面の駒の表現として用い,駒の表現ベクトルを使用する場合は,そのすべてを前述したベクトル長30の表現ベクトルに置き換えた. そのため両実験とも比較対象である表現ベクトルを使うか否かで第一層の入力数とパラメータの数が異なる. ターン数を対数にした値など入力の特徴量エンジニアリングも行われているが,入力特徴や表現学習時の教師信号,損失関数は実サービスのゲームを用いている都合上,詳細な言及は避ける. 異なるゲームに本研究内容を応用する場合,ゲームごとに入力特徴を設計する必要がある. 9. 2 勝率の定義 オセロニアでは非対人対戦イベントや通信が切れた際の代打ちとして,ルールベースAIが実装されている. ルールベースAIの行動はある得点表の合計値(評価関数)を参照し生成された確率分布によって選択される. 強さが固定であることと,決定論的な行動でないことから, 本研究の勝率の定義にはルールベースAIとの戦績を用いた. 勝率は各試合,各々異なるシードでデッキのシャッフルと先攻後攻を決定した1,000試合中何勝したかで評価した.勝率評価の試合時には学習された行動評価の近似関数の出力に対して greedy な行動選択を行った. 2 実験1:表現ベクトルを用いた対戦ログでの教師あり学習 実験1では表現ベクトルを用いた場合とそうでない場合での学習効率の比較を示す. ここでいう効率とは計算時間に対する勝率の向上速度や,最終的な到達勝率の高さを意味する. 勝率はさまざまなデッキの組み合わせによって測るべきだが,現実的にあらゆるデッキの組合せで評価するのは困難であるため,ここでは代表として2017年1月の時点でよく使われていたデッキバリエーションである4種を用いた.限定された駒種類数での勝率評価であるため,表現ベクトルの有無で大きな差が現れないことが予想される. そのため minibatch で学習した学習回数(step)に対する勝率以外に,同条件で学習にかかった経過時間を提示する. 9. 1 実験設定 教師あり学習でも表現学習と同じく2017年1月に集計されたプレイヤーランクが76~200同士の対戦ログを使用した. 勝率評価に4種の内訳はデッキ内の駒の属性を神(耐久値が高い傾向),魔(戦術がトリッキーな傾向) ,竜(攻撃力が高い傾向)の駒で主に構成した3種とそのバランス的な組合せを用いた. 学習と評価に使用したデッキの構築はアソシエーション分析と階層的クラスタリング手法の一種であるウォード法と k-means 法を組合せたクラスタリングにより抽出した頻出する駒の組合せから [],任意の組合せによるデッキを自動生成した. プレイ戦術の学習ネットワークの表現ベクトルを使用する場合の入力サイズは5,649になった. 前述の通り,実際にプレイヤーが選択した行動(正例)と選択しなかった行動(負例)の教師データ数の偏りが大きいため,正例と負例の割合が1:5になるようダウンサンプリングして学習を行っている(可能な行動の集合の数 A t が6より小さかった場合はのぞく).すなわち,学習データの量はすべての対戦の総ターン数に対して約6倍になる. 9. 2 結果および考察 図5に各 step での勝率と,同条件の GPU で学習させた場合の経過時間を示す. 毎 step の勝率はほぼ等しいが,50万 step 時の経過時間が約5. 6倍になった. これは約900の駒種類数を想定したものであり,学習コストは駒の増加に伴いさらに大きくなる. 本研究ではアソシエーション分析とクリスタリングにより生成されたメジャーなデッキ構成を用いたため,マイナーな駒の学習などに影響を評価できていないが,駒表現ベクトルが計算的な時間削減に寄与し,成績に影響を及ぼさない示唆が得られた. 図5 表現ベクトル+教師あり学習モデルの勝率と学習にかかった実時間の推移 9. 3 実験2:表現ベクトルを用いたマルチタスク強化学習 強化学習でも表現ベクトルの使用に対して成績に変化が表れるか実験を行った. 1 実験設定 対戦相手には初期1,000対戦はランダムで,その後1,000対戦ごとに保存される過去の近似関数を対戦毎にランダムに読み込み,対戦相手の行動選択に用いた. アーキテクチャには表現ベクトルのあり, なしをぞれぞれ学習し,勝率を比較した. 5 )により抽出された minibatch での学習を 1 step として2対戦ごとに 32 step 学習を繰り返し行った. 2 結果および考察 図6に対戦回数に対する勝率の推移を示す. 対戦回数ごとの勝率はほぼ等しく,強化学習でも表現ベクトルの使用により,成績に悪影響を及ぼさない示唆が得られた. トレーディングカードゲームなど,離散化された状態や行動の要素数がトランプの枚数とは比較にならない数で存在する意思決定課題に対処するためには,そのゲームのドメインに基づいた個別要素の特徴付けが重要になる. それにより複雑なゲームへの機械学習,強化学習の応用範囲を広めることができたといえる. また,本研究はゲームルールが明示されている際に,スクロールやクリックなどの低次な行動の学習を無視し,一足飛びで高次な意思決定の学習を行えることを意味している. そのとき,低次の行動から高次行動(スキル,プラン)の発見と汎化が前提となることが予想される. そこでは本研究のように拡張され得る特徴空間を想定し,潜在的に膨大な行動の種類数に対して意思決定していける学習設計が重要になると考えられる. そのメタ設計,メタ構造はゲームジャンルに依存せず転用可能である. 11.今後に向けて 本研究の試みにより,最大の問題の1つである,継続的に増えていくゲーム要素を考慮した戦術の学習(教師あり学習,強化学習)を行うことができた.しかしながら,未知のゲーム要素を加えた環境下での膨大なデッキの組合せすべてに対して最適な戦術を学習するというマルチタスク強化学習への対処は未だ不十分である.強化学習は対戦ログのデータがなくとも未知の要素にも対応し得る教師あり学習にはない優れた性質を有する.しかし前述のマルチタスクなど,すべての問題に対処するのは現実的でない.ゲームバランス調整のような人間の複雑な仕事を補助するためにも,現代のゲームタイトルに強化学習を用いた際の問題の分解の仕方,その成果を共有していくことが今後の業界全体に対する貢献になると思われる. 参考文献• 1)株式会社ディー・エヌ・エー:『逆転オセロニア』公式サイト.入手先()• 2)株式会社ディー・エヌ・エー:『逆転オセロニア』最速攻略wiki.入手先()• 3)Mnih, V. , Kavukcuoglu, K. , Silver, D. , Hassabis, D. , et al. : Human-level Control through Deep Reinforcement Learning, Nature, 518 7540 , pp. 529-533 2015. 4)Silver, D. , Hassabis, D. , et al. : Mastering the Fame of Go without Human Knowledge, Nature 550 7676 , pp. 354-359 2017. 5)Sutton, R. and Barto, A. : Reinforcement Learning : An Introduction, MIT Press 1998. 6)Hessel, Matteo, et al. : Rainbow : Combining Improvements in Deep Reinforcement Learning, arXiv preprintarXiv:1710. 02298 2017. 7)Schaul, T. , Quan, J. , Antonoglou, I. and Silver, D. : Prioritized Experience Replay, arXiv preprint arXiv:1511. 05952 2015. 8)Van Hasselt, H. , Guez, A. and Silver, D. : Deep Reinforcement Learning with Double Q-learning, arXiv preprintarXiv:1509. 06461 2015. 9)Le, Q. and Mikolov, T. : Distributed Representations of Sentences and Documents, ICML2014, Volume14, pp. 1188-1196 2014. 10)Li, J. , Galley, M. , Brockett, C. , Spithourakis,G. , Gao, J. and Dolan, B. : A Persona-based Neural Conversation Model, ACL2016 2016. 11)濱田晃一,藤川和樹,小林颯介,菊池悠太,海野裕也,土田正明:対話返答生成における個性の追加反映, 研究報告自然言語処理(NL), 2017-NL-232 12 , pp. 1-7, 2188-8779 2017. 12)Agrawal, R. and Srikant, R. : Fast Algorithms for Mining Association Rules in Large Databases, VLDB'94 Proceedings of The 20th International Conference on Very Large Data Bases, pp. 487-499 1994. kono dena. com 1987年生.2016年東京電機大学大学院先端科学技術研究科博士課程修了.2017年DeNAに入社.実運用中のモバイルゲームにおけるゲームAIの強化学習の研究開発に従事. 田中 一樹(非会員) 2015年慶應義塾大学理工学部卒業,2017年同大学院理工学研究科総合デザイン工学専攻修士課程修了.電力系統に関する数理計画法や機械学習の工学的応用を専攻.2017年DeNAに入社.主にデータサイエンスや機械学習のビジネス応用に興味を持っている. 岡田 健(非会員) 数論幾何を研究する身から一転,2015年にDeNAに新卒入社.ゲーム開発・運用を経て,2018年から『逆転オセロニア』のGame AI開発にてエンジニアリング全般を担当している.学習高速化,強化学習,実サービスへの応用に興味を持つ. 奥村 エルネスト 純(非会員)jun. okumura dena. com 京都大学,東京大学,米ローレンス・バークレー国立研究所にて宇宙物理学の研究に従事し,2014年DeNA入社.データアナリストとしてゲーム事業のデータ分析に携わり,2016年末よりAIエンジニアに転身.強化学習,深層学習を活用したGame AI研究開発プロジェクトをリード..

次の