Afleveringen
-
関連リンク GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか
Gemini-2.0とGPT-4oの画像生成技術は、拡散モデルから自己回帰モデルへの進化、そしてAny-to-Anyモデルという概念の登場によって実現されました。Partiは言語モデルの技術を画像生成に応用し、CM3leonはテキストと画像を双方向に扱えるようにしました。これらの研究が、テキスト、画像、音声を統合的に扱えるAny-to-Anyモデルへと繋がり、Gemini-2.0とGPT-4oが誕生しました。これらのモデルは、異なる種類のデータを統一された表現で処理し、大規模な学習によって高品質な生成を可能にしています。
引用元: https://zenn.dev/discus0434/articles/gemini-2-0-mm
みんなのためのLLMアプリケーション開発環境の構築事例この記事は、LLMアプリケーション開発を容易にするための環境構築事例です。LLM開発では、プロンプトとコードの分離、複雑なRAG構成、デプロイの難しさが課題でした。解決策として、(1)プロンプトを共有・実行できるPrompt Storeの開発、(2)Langflowを用いたビジュアルスクリプティングの導入、(3)簡単なデプロイシステムの構築を行いました。Langflowは、GUIでLLMアプリを開発できるツールで、カスタムコンポーネントを追加することで、機能拡張も可能です。これらの取り組みにより、専門家でなくてもLLMアプリを開発・デプロイできる環境が実現し、開発サイクルが大幅に短縮されました。
引用元: https://techblog.lycorp.co.jp/ja/20250327a
まさかの。Androidオープンソースプロジェクト、非公開開発に - すまほん!!GoogleがAndroid OSの開発を非公開化。今後は社内ブランチに一本化し、開発プロセスを効率化する狙い。一般ユーザーやアプリ開発者への影響は少ないものの、カスタムROM開発者などプラットフォームをカスタマイズする開発者には影響が出る可能性あり。OSのソースコードはリリース時に公開されるため、完全な非公開化ではない。
引用元: https://smhn.info/202503-google-aosp
ChatGPTに、信じられないほど低品質で今すぐChatGPT有料プランを解約したくなるような画像を頼んだら、ユーモアあふれる画像が出てきた話「林家GPT亭名乗れる」ChatGPTに「低品質な画像を」と依頼したところ、予想外にユーモラスな画像が生成され話題になっています。まるで大喜利のようなセンスに、「笑点」を理解しているとの声も。
引用元: https://togetter.com/li/2530653
お便り投稿フォームVOICEVOX:ずんだもん
-
告知宣伝なのだ。4月10日木曜日18時半から「LangChainとLangGraphによるRAG・AIエージェント実践入門」10章 要件ドキュメント生成AIエージェントの輪読会を開催するのだ。気軽に参加してほしいのだ。詳しくはpodcastホームページを見てほしいのだ。 関連リンク Model context protocol (MCP) - OpenAI Agents SDK
OpenAI Agents SDKにおけるMCP(Model Context Protocol)は、LLM(大規模言語モデル)が外部ツールやデータソースにアクセスするための標準化されたプロトコルです。MCPは、AIアプリケーションにおけるUSB-Cポートのように、LLMと様々なツールを接続する共通のインターフェースを提供します。
MCPサーバーには、ローカルで動作するstdioサーバーと、URL経由で接続するHTTP over SSEサーバーの2種類があります。Agents SDKでは、MCPServerStdioとMCPServerSseクラスを使ってこれらのサーバーに接続できます。
MCPサーバーをAgentに追加することで、Agentはサーバーのツールを認識し、必要に応じて呼び出すことができます。list_tools()でツール一覧を取得し、call_tool()でツールを実行します。
ツールリストはキャッシュすることも可能です。ツールリストが変更されないことが確実な場合に、cache_tools_list=Trueを設定することで、レイテンシを改善できます。キャッシュを無効化する場合は、invalidate_tools_cache()を呼び出します。
引用元: https://openai.github.io/openai-agents-python/mcp/
“「生成AIこんなものか」と諦める前に” 営業AIエージェント開発現場から学ぶLLM品質保証テクニックLLMの品質保証は、従来のシステム開発とは異なり、事前の網羅的なテストだけでは不十分です。重要なのは、品質を継続的にモニタリングし、改善していく運用戦略です。具体的な戦略として、
エラーパターンの言語化と継続的改善 評価と生成の分離 LLMの逃げ道を作るという3つのポイントを紹介しています。重要なのは、LLMの限界を理解した上で、課題の検知と対処の仕組みを構築することです。引用元: https://tech.algomatic.jp/entry/2025/03/26/182954
中国DeepSeek、非推論モデルで「米国製AI」を凌駕するスコア–OpenAIやGoogleを上回る中国のDeepSeek V3が、AIのベンチマークでOpenAIやGoogleを上回り、非推論モデルでトップに。DeepSeek V3はオープンソースで、高速かつ低コストなのが特徴。推論モデルではないため大規模データ向けではないものの、多くのタスクで実用的な点が強みです。中国AI企業がオープンソース戦略で米国に対抗する構図が見えます。
引用元: https://japan.cnet.com/article/35230944/
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
Zijn er afleveringen die ontbreken?
-
関連リンク 財布を気にしたくないのでローカルLLM(Gemma3)にコードを書かせてみた
この記事では、ローカルLLMのGemma3を使って、API課金を気にせずコーディングできるか検証しています。LM StudioとClineを使い、Gemma3をVSCodeから利用する環境構築手順を解説。Gemma3 4Bでは簡単なコード生成に手間取ったものの、外部サービスより高速。Gemma3 12Bは正しく動作したが低速。今後のモデル改良に期待しつつ、ローカルLLM活用を検討する価値はあると結論付けています。
引用元: https://tech.mntsq.co.jp/entry/2025/03/25/102902
Microsoft Playwright MCPが切り拓くLLMとブラウザの新たな統合Microsoftが開発したPlaywright MCPは、LLMとブラウザを連携させる技術です。従来の画像認識と異なり、ウェブページの構造データを利用し、LLMがウェブ操作を効率的に行えます。テスト自動化、データ収集、顧客サポート、コンテンツ管理などで活用でき、テストコードの自動生成やサイト変更への自動対応を実現します。設定も比較的簡単で、今後の発展も期待されています。
引用元: https://zenn.dev/kimkiyong/articles/679faf454b0ee0
Gemini 2.5: Our most intelligent AI modelGoogle DeepMindが最新AIモデルGemini 2.5を発表しました。特に、Gemini 2.5 Pro Experimentalは、思考能力を持ち、複雑な問題解決に特化しています。各種ベンチマークで高い性能を示し、LMArenaのリーダーボードで首位を獲得。推論能力とコーディング能力が向上しており、Google AI StudioとGemini Advancedで利用可能です。近日中にVertex AIでも利用可能になる予定です。開発者はGoogle AI Studioで試すことができます。
引用元: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク 言語モデルの物理学
MetaのZeyuan Allen-Zhuが提唱する「言語モデルの物理学」は、言語モデルを原理的に理解しようとする研究です。(1)ウェブデータではなく、コントロールされたデータセットでモデルを訓練し、(2)モデルの内部状態を詳細に分析します。6本の論文からなる研究では、言語モデルが文法構造を内部で習得し、動的計画法のような処理を行うこと、算数の問題を最短経路で解くこと、間違いに気づき修正できることなどが示されました。また、知識の貯蔵と抽出は異なり、知識を操作するには思考の連鎖が必要であること、モデルはパラメータあたり約2ビットの情報を記憶できることなどが明らかに。これらの知見は、より効率的な言語モデルの開発に役立つ可能性があります。
引用元: https://joisino.hatenablog.com/entry/physics
New State-of-the-art Fully Open 3B Language Models — ROCm BlogsAMDがInstellaという30億パラメータの言語モデルを発表しました。AMD Instinct MI300X GPUで学習されており、同規模の既存オープンモデルより高性能です。Llama-3.2-3B等のオープンウェイトモデルにも匹敵。モデルウェイト、学習設定、データセット、コードは全て公開。AIコミュニティでの協力と技術革新を促進します。Instellaは、FlashAttention-2、Torch Compile、FSDP等の効率的な学習技術を使用。Instella-3B-Stage1, Instella-3B, Instella-3B-SFT, Instella-3B-Instructの4モデルが公開。
引用元: https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html
ゼロからコーディングエージェントを作るならこんなふうに🛠️この記事は、XMLベースのツール定義と実装で、ミニマムなコーディングエージェントを自作する方法を紹介しています。最低限必要なツールは、ListFile、ReadFile、WriteFile、AskQuestion、ExecuteCommand、Completeの6つです。LLMにXML形式でツールを使わせることで、プログラムと会話の融合が実現できます。Go言語での実装例が示されていますが、言語依存はありません。ExecuteCommandの実装では、セキュリティのためユーザーの許可を得るようにしましょう。拡張性を考えるなら、ブラウザ操作ツールやデータベース操作ツールなどを追加すると良いでしょう。
引用元: https://zenn.dev/minedia/articles/11822c2b509a79
「なぜスパム投稿は内容が雑なのか?」と思ったら、アホな内容に引っかかる選別がコツらしく合理化が進んでいる「悪行にも損益分岐点がある」スパム投稿の内容が雑なのは、効率を上げるため。賢い人が引っかかると、質問が多く対応が大変になるので、最初から知識の少ない人だけをターゲットにしている。注意喚起だけでは防げないため、システムレベルでの対策が必要。
引用元: https://togetter.com/li/2529599
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク LLM x Slack x Notion で論文インプットを効率化し、社内ナレッジ蓄積もできるようにした話
neoAIが、論文インプットの課題を解決するために開発したLLM Botを紹介。論文を読む文化の重要性に対して、情報の多さや読むこと自体のハードルがあった。解決策として、Slackに論文URLを投稿するだけで、要約とQ&Aを自動生成しNotionに蓄積するBotを開発。AWS Lambda、Slack API、Notion APIを使用。導入後、論文インプットのハードルが下がり、情報共有が促進された。
引用元: https://zenn.dev/neoai/articles/768b65f5655171
Cursorを使った文章執筆は、AIファーストな環境整備から始まるAIエディタCursorで執筆効率を上げる方法を紹介。重要なのは、(1)ObsidianでMarkdown形式で情報を一元管理、(2)音声入力とAIでの修正、(3)Cursorで情報とAIを連携、の3点。Obsidianを情報集約地とし、CursorのマルチルートワークスペースでObsidianの情報を参照・編集、Gitで履歴管理、iCloudでモバイル連携。AIエージェントが自律的にファイル探索や構造整理を支援。AI活用には、情報の一元化とMarkdown形式での統一が不可欠。
引用元: https://honeshabri.hatenablog.com/entry/cursor_markdown_ecosystem
Next.jsの脆弱性CVE-2025-29927まとめNext.jsに認可バイパスの脆弱性CVE-2025-29927が発見されました。影響を受けるのはNext.js 15.2.2以前、14.2.24以前、11.1.4から13.5.6。対策として、15.2.3または14.2.25以降へアップデートしてください。古いバージョンはアップデートが提供されないため、リバースプロキシでx-middleware-subrequestヘッダーを除去する等の対策が必要です。この脆弱性は、攻撃者が特定のHTTPヘッダーを送信することで、認証を回避し保護されたリソースにアクセスできるものです。アクセスログを監視し、不審なリクエストがないか確認することも推奨します。
引用元: https://zenn.dev/t3tra/articles/c293410c7daf63
「この断末魔も春を感じるよ」iPhoneじゃないとイジメられると泣き叫ぶ子供に親がGALAXY A25を与える姿をみた話携帯ショップ店員が、子供がiPhoneをねだるも親がGALAXY A25を与える場面に遭遇した話。背景には、学生の間でiPhoneが一種のステータスとなっている現状がある。AirDropの利用や、インフルエンサーの影響も大きい。AndroidにもQuick Shareがあるが、iPhoneとの互換性はない。GALAXYのAシリーズはローエンドモデルで、性能が良いものならiPhoneを超えるという意見もある。
引用元: https://togetter.com/li/2529130
お便り投稿フォームVOICEVOX:春日部つむぎ
-
関連リンク Vercel AI SDK と mastra を使った AI Agent 開発 Tips
Vercel AI SDKとmastraを使ったAI Agent開発の知見を紹介。SDK選定では、TypeScriptで使いやすいVercel AI SDKがおすすめ。ツール呼び出しの抽象化が容易だが、長いAgent処理ではSDKのループ外で自前のループを構築し、メッセージ履歴を管理する必要がある。Geminiは安価だが不安定な場合がある。mastraはVercel AI SDKをベースにしたフレームワークで、マルチエージェント協業やRAGが容易だが、裏側の動きが分かりにくい点とライセンスに注意。memory機能でメッセージ管理が容易になる。RAG構築はVercel AI SDKでも可能だが、mastraの方がより抽象化されている。メッセージ改変時の注意点も解説。
引用元: https://zenn.dev/bm_sms/articles/vercel_ai_sdk_mastra_ai_agent
LLMにJSONやソースコードを出力させるStructured Generationの技術LLMでJSONやソースコードを生成する際、形式が崩れる課題があります。そこで、出力トークンを制御し、形式を保証するStructured Generationが注目されています。パーサーを用いて文法的に誤った出力を防ぐ方法がありますが、計算コストが課題です。正則言語(正規表現で表現可能)では、DFA(決定性有限オートマトン)を利用し、状態遷移と語彙の関係を事前計算することで効率化します。文脈自由言語(JSONなど)では、字句解析と構文解析を行い、次に来るべき終端記号を絞り込み、効率的なトークン制御を実現します。これらの技術により、LLMによる構造化データ生成を安定化できます。
引用元: https://engineers.ntt.com/entry/202503-structured-generation/entry
From innovation to impact: How AWS and NVIDIA enable real-world generative AI success Amazon Web ServicesAWSとNVIDIAは、生成AIの実用化を支援。重要なのはGPUだけでなく、オーケストレーション、ストレージ、ネットワーキング基盤。AdobeはAWSとNVIDIAの技術でモデル学習を20倍にスケールアップ。Perplexityは、AWSとNVIDIAの組み合わせにより、低レイテンシーと柔軟性を実現。Ciscoは、モデルとアプリケーションを分離することで開発速度とコスト効率を向上。Hippocratic AIは、安全性を重視した医療AIを構築。AWSとNVIDIAは、AI導入を支援する技術と事例を提供。
引用元: https://aws.amazon.com/blogs/machine-learning/from-innovation-to-impact-how-aws-and-nvidia-enable-real-world-generative-ai-success/
近い将来「愚痴はAIに話すのがマナー」になってるかもという妄想漫画「AIは素直に聞いてくれる」「人間らしさはそこにはあるのか」漫画家の一秒氏が、近い将来「愚痴はAIに話すのがマナー」になるかもしれないという妄想をTwitterに投稿し、話題を呼んでいます。多くのユーザーがこのアイデアに共感し、既にAIに愚痴や相談をしている人もいるようです。AIは人間と違い、感情的な負担をかけずに愚痴を聞いてくれるため、人間関係に配慮する現代社会において、AIと人間で役割分担をする未来が来るかもしれません。
引用元: https://togetter.com/li/2527525
お便り投稿フォームVOICEVOX:ずんだもん
-
関連リンク 15分でわかる!AIエージェント開発の最新フレームワーク OpenAI Agents SDK
OpenAI Agents SDKは、AIエージェント開発を効率化するフレームワークです。複数のAIエージェントが連携し、複雑なタスクを処理できます。主要な概念は以下の4つです。
エージェント:名前、役割、モデル、ツールを設定 ハンドオフ:タスクを他のエージェントに委譲 ガードレール:不適切な入力をチェックし拒否 トレーシング:エージェントの動作を可視化記事では、これらの概念をPythonで実装し、具体的な動作例を示します。これにより、AIエージェントシステムの開発、デバッグ、監視が容易になります。引用元: https://qiita.com/Kumacchiino/items/51a8ffee98eeb4f8d0c6
NVIDIA Blackwell Delivers World-Record DeepSeek-R1 Inference Performance NVIDIA Technical BlogNVIDIA Blackwell GPUと最適化された推論ツールにより、大規模言語モデル(LLM)の推論性能が大幅に向上。DeepSeek-R1モデルで世界記録を達成。TensorRT-LLMなどのソフトウェア改善も貢献。FP4精度での推論も精度を維持しつつ高速化。cuDNNやCUTLASSなどのライブラリもBlackwellアーキテクチャ向けに最適化。
引用元: https://developer.nvidia.com/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/
RAGの検索性能を90%も低下させるテキストの落とし穴RAGの検索で重要な役割を担うEmbeddingですが、テキストの特性によって性能が大きく左右されることが論文で指摘されています。具体的には、文章の位置、単語、文章量がEmbeddingの性能に影響を与え、最大90%も検索性能が低下する可能性があるとのことです。例えば、重要な情報が文章の先頭にあるか、同じ意味でも異なる単語が使われているか、文章の長さなどが影響します。対策として、紹介されている関連技術も参考に、自身のケースに合った方法を見つけることが重要です。
引用元: https://zenn.dev/knowledgesense/articles/ff2c528acf6b04
東大のあるレポート課題に「ChatGPTは使っていいが参考文献にプロンプトは全部書け」と謎ルール→むしろ本質的な意味で「学生の理解度」が分かるのでは東大のレポート課題でChatGPT利用が許可されたものの、使用したプロンプトを全て参考文献として記述するルールが話題。このルールは、AIが生成した成果物だけでなく、学生がAIにどのような指示を与えたか、つまり思考プロセスを可視化する狙いがある。AI利用時の学生の理解度を評価し、認識のずれを指導する上で有効。ただし、プロンプトや生成結果を詳細に記述すると参考文献が膨大になるという課題も指摘されている。
引用元: https://togetter.com/li/2526803
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク Android端末をサブ端末として利用する|LINEみんなの使い方ガイド
LINEでは、スマホをメイン端末、タブレットなどをサブ端末として利用できます。Android端末をサブ端末として使うには、LINEアプリをインストール後、ログイン時に「サブ端末」を選び、表示されたQRコードをメイン端末で読み取ります。サブ端末では、アカウント引継ぎや年齢確認など一部機能が制限されます。Androidサブ端末は1台まで利用可能です。
引用元: https://guide.line.me/ja/signup-and-migration/android-secondary.html
絶対に分かる機械学習理論機械学習における訓練データとテストデータの性能の関係について、統計と機械学習の基礎知識から丁寧に解説する記事。データの平均値が期待値に集中する現象を実験と理論で確認し、マルコフの不等式、チェビシェフの不等式、ヘフディングの不等式といった集中不等式を紹介。モデル評価における経験損失と真のリスクの関係、訓練データと評価データの違いを説明。パラメータ候補数が有限・無限の場合の理論的保証について解説し、深層学習への応用も示唆。
引用元: https://joisino.hatenablog.com/entry/theory
【図解解説】これ1本12分でReact Hooks 全20種を理解できる教科書React Hooksは、useStateやuseEffectなど、Reactの機能を関数コンポーネントで利用するための仕組みです。この記事では、Reactで提供されているほぼ全てのHooks(React19で追加されたものを含む)を解説しています。
useStateは状態を管理し画面を更新、useEffectは副作用を扱うがデータ取得にはReact QueryやSWRを推奨。useReducerは複雑な状態管理に役立ち、useContextはグローバルな値を共有。useRefはDOMへのアクセスや再レンダリングなしの値保持に利用。
React19未満では、useMemoで計算結果を、useCallbackで関数をメモ化し、パフォーマンス改善。useLayoutEffectはDOM変更を同期的に処理。useTransitionは優先度の低い更新を遅延させ、useDeferredValueは値の更新を遅延。useIdは一意なIDを生成。useSyncExternalStoreは外部ストアのデータ読み取り、useDebugValueはデバッグを支援。useImperativeHandleは子コンポーネントの公開値をカスタマイズ。useInsertionEffectはCSS-in-JSライブラリ向け。React19では、useActionStateで非同期処理後の状態更新、useOptimisticで楽観的更新、useFormStateでフォームの状態管理とサーバーアクションの結果を扱うことが可能。useFormStatusはフォーム送信状態を管理。useは非同期データを扱うためのAPI。
引用元: https://qiita.com/Sicut_study/items/d4778cbe8b499570f79e
不意に抜けるのを防止できるロック付きのUSB Type-Cが登場!→めちゃくちゃ既視感がある出で立ちで「先祖返りか?」と言われるサンワサプライからスクリューロック機構付きのUSB Type-Cケーブル「KU-20GCCPE」シリーズが発売。コネクタ抜けを防ぐ設計で、PD240Wに対応。D-subコネクタのようなスクリューロック式のため、懐かしいと感じるユーザーも。USB Type-C locking Connector規格に準拠。
引用元: https://togetter.com/li/2526516
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク Introducing Command A: Max performance, minimal compute
高性能LLM「Command A」が発表されました。GPT-4oやDeepSeek-V3と同等以上の性能を、より効率的に実現。特に企業向けのタスクで強みを発揮します。
引用元: https://cohere.com/blog/command-a
プレゼン資料が見違える!AI図解ツールNapkin AIの基本と実践的な使い方完全版Napkin AIは、テキストからグラフや図解を自動生成するAIツールです。プレゼン資料の作成に役立ち、β版は無料で利用可能。海外のメモ帳風の画面で、マークダウン形式で入力します。テキスト入力後、生成ボタンで図を生成。スタイルを選択し、背景色や比率などを調整できます。PNG、SVG、PDFでのダウンロードも可能です。図の一部だけ活用したり、生成された図を参考にしてFigmaで作成するなど、具体的な活用方法も紹介されています。
引用元: https://tech-lab.sios.jp/archives/46830
GitHub - ShaojieJiang/extendable-agent: An Agentic platform that allows you to define extensionsextendable-agentは、拡張機能を定義できるエージェントプラットフォームです。Pydanticデータモデルで出力スキーマを設定可能です。
引用元: https://github.com/ShaojieJiang/extendable-agent
お便り投稿フォームVOICEVOX:春日部つむぎ
-
関連リンク Google の Gemma 3 を解説して試してみる
GoogleのオープンモデルGemmaシリーズ最新版、Gemma 3が発表されました。主な特徴は、画像入力に対応したマルチモーダルモデルへの進化、長文対応(128kトークン)、多言語対応(140以上)、数学・推論能力の向上です。パラメータ数は1B/4B/12B/27Bの4種類。安全性分類モデルShield Gemma 2も公開。Hugging FaceとOllamaで動作確認ができます。
引用元: https://zenn.dev/schroneko/articles/try-google-gemma-3
Introducing the New PyTorch Landscape: Your Guide to the PyTorch EcosystemPyTorch Landscapeは、PyTorchのエコシステムを可視化し、関連ツールを容易に発見できるように設計されたものです。Modeling、Training、Optimizationsの3つのカテゴリでプロジェクトを整理し、PyTorchを補完する厳選されたツールを提供します。Exploreページでは、ロゴ、説明、GitHubへのリンク付きでツールを検索できます。Guideページでは、各プロジェクトの詳細な情報(メトリクス、トレンド)を確認できます。Statsページでは、リポジトリのアクティビティ、プログラミング言語、投資データなど、AI開発のトレンドを把握できます。
引用元: https://pytorch.org/blog/pytorch-landscape/
プロンプト泥棒がやってくる! 〜生成AI時代のセキュリティ対策〜生成AI利用拡大に伴い、AIへの不正な指示(プロンプトインジェクション)による情報漏洩リスクが高まっています。この記事では、攻撃手法と対策を解説します。
プロンプトインジェクションとは: AIに意図しない動作をさせ、機密情報漏洩やデータ改ざんを招く攻撃です。
対策:
防御プロンプト: AIに情報漏洩禁止を指示。 追加モデル: 入力フィルタで悪意ある指示を検知・遮断。 出力フィルタで機密情報を含む回答を遮断。 構造化クエリ: LLMにシステム指示とユーザ指示の優先順位を理解させる。現実的な対策:
AIへの権限を最小限に。 重要な判断は人間のチェックを。 機密データはAIから分離。結論:現時点では完全な防御は困難。情報漏洩を前提としたシステム設計が重要です。AIに渡す情報は常に漏洩の可能性があると考え、セキュリティ対策を講じましょう。
引用元: https://zenn.dev/codeciao/articles/prompt-injection-security
水木しげるロードで「女性の観光客をねらってつきまとう不審者」がいるらしい→Xでの報告例多数を受け、境港観光協会が対策に乗り出す流れにタイトル: 水木しげるロードで「女性の観光客をねらってつきまとう不審者」がいるらしい→Xでの報告例多数を受け、境港観光協会が対策に乗り出す流れに
要約:水木しげるロードで、女性観光客へのつきまとい行為が報告されています。観光協会は事態を重く見て、警察と連携し対策を開始。注意喚起の掲示や、店舗への情報提供を依頼しています。不審な人物を見かけた場合は、市役所や観光協会へ連絡するよう呼びかけています。
引用元: https://togetter.com/li/2524629
お便り投稿フォームVOICEVOX:ずんだもん
-
関連リンク OpenAI の AI エージェント構築用ツール
OpenAIがAIエージェント構築ツールを公開。Responses APIは、ウェブ検索、ファイル検索、Computer Useを統合し、Chat Completions APIとAssistants APIを代替します。Tier制限は基本的にありませんが、Computer UseはTier 3以上が必要です。Agent SDK(旧Swarm改良版)も公開。料金はツールごとに異なり、ファイル検索には無料枠があります。Assistants APIは2026年半ばに廃止予定。
引用元: https://zenn.dev/schroneko/articles/new-tools-for-building-agents
Introducing Gemma 3: The most capable model you can run on a single GPU or TPUGoogleが軽量オープンモデルGemma 3を発表。Gemini 2.0を基盤とし、シングルGPU/TPUで動作。140言語以上に対応し、128kトークンのコンテキストウィンドウ、関数呼び出しをサポート。ShieldGemma 2も同時にリリース。画像安全性をチェックする機能を提供。Hugging Face、Ollama等のツールに対応。カスタマイズも容易。
引用元: https://deepmind.google/discover/blog/introducing-gemma-3/
LLMのプロンプトもTSXで書く時代VS Code拡張ライブラリprompt-tsxは、LLMへのプロンプトをTSXで記述できます。従来の文字列連結によるプロンプト記述は、可読性や保守性の問題がありました。TSXを使うことで、型安全、コンポーネント分割、関数化が可能になり、複雑なプロンプトを扱いやすくします。prompt-tsxはVSCodeのLM APIに特化していますが、JSXファクトリ関数でオブジェクトに変換するため、他の環境への移植も可能です。Copilot Chatでは、トークン数に応じてプロンプトが圧縮される点に注意が必要です。
引用元: https://blog.lai.so/prompt-tsx/
AIで経費精算業務60%削減!製品戦略と開発ロードマップを公開!ラクスは経費精算システム「楽楽精算」にAIを導入し、業務効率60%削減を目指します。人手不足を背景に、経理担当者がコア業務に集中できるよう、AIで申請ミス削減や自動承認機能などを開発。PoCを経てMVP、実運用と段階的に進めます。2025年~2026年に申請者向け、2027年~2029年に経理担当者向けの機能を実装予定。将来的には他の楽楽シリーズへの展開も視野に入れています。
引用元: https://tech-blog.rakus.co.jp/entry/20250312/ai-product-strategy-and-roadmap
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク Build Real-Time Multimodal XR Apps with NVIDIA AI Blueprint for Video Search and Summarization NVIDIA Technical Blog
NVIDIA AI Blueprintを用いて、XR環境で動画と音声の両方を活用するリアルタイムなマルチモーダルAIエージェントを構築する方法を紹介します。このBlueprintは、VLM(Vision Language Model)とLLM(Large Language Model)を組み合わせ、動画の内容理解と要約を可能にします。XR環境では、音声認識とテキスト読み上げを組み込むことで、ユーザーはより自然な対話を通じてXRアプリケーションを操作できます。例えば、VR空間でロボットアームに質問をすると、AIエージェントが音声で応答するといったことが可能です。この技術は、技能トレーニング、設計・プロトタイピング、教育など、様々な分野でのXRアプリケーションの可能性を広げます。
引用元: https://developer.nvidia.com/blog/build-real-time-multimodal-xr-apps-with-nvidia-ai-blueprint-for-video-search-and-summarization/
RAGのウソを検知する新手法(LLM-as-a-Judgeを超えて)RAG利用時の課題である、事実と異なる情報を生成する「ハルシネーション」を高速に検出する新手法「LettuceDetect」を紹介。従来はGPTのような大規模言語モデル(LLM)で検出していたため時間とコストがかかっていたが、「LettuceDetect」は軽量な「ModernBERT」を使用することで、高速化を実現。RAGで生成された回答と、その根拠となる外部ソース、質問文をまとめてモデルに入力することで、回答の各部分に対する信頼度を判定し、誤った情報にフラグを立てることが可能。LLM自身が回答の誤りを認識し、再検索を行うAIエージェントへの応用も期待される。
引用元: https://zenn.dev/knowledgesense/articles/10e18ea3cbeb7a
GitHub - johnbean393/Sidekick: A native macOS app that allows users to chat with a local LLM that can respond with information from files, folders and websites on your Mac without installing any other software. Powered by llama.cpp.macOS用アプリ「Sidekick」は、ローカルLLMとチャットできるツール。特徴は、外部ソフト不要で、Mac内のファイル、フォルダ、Webサイト情報を活用できる点。llama.cppで動作し、オフラインでの会話とローカルデータ保存が可能。RAGにより大量データを扱え、Alibaba Cloud’s QwQ-32Bなど多様なモデルをサポート。コードインタプリタ、画像生成、文章アシスタント機能も搭載。Apple Silicon搭載Macで高速動作し、GPUオフロードも可能。
引用元: https://github.com/johnbean393/Sidekick
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク LM Studio を使ってローカルでLLMを実行する方法
LM Studioは、GUIでLLMをローカル実行できるツール。Llama、Mistral等に対応。手順:
公式サイトからDL・インストール Power Userモードでモデル(日本語対応のLlama-3-ELYZA-JP-8B-GGUF等)を検索・DL チャットで動作確認 開発者モードでAPI情報を取得し、Pythonから利用 単体実行またはOpenAI経由で実行複数のLLMをローカルで動かし、哲学者を模した討論シミュレーションも可能。プライバシーを守りつつLLM活用を促進。引用元: https://techblog.insightedge.jp/entry/local-llm
MCPはLLMにとってのDependency Injectionであるこの記事では、LLM(大規模言語モデル)におけるMCP(Model Context Protocol)を、ソフトウェア開発のDependency Injection(DI)になぞらえて解説しています。MCPは、LLMが外部ツールやデータソースを利用する際の標準化されたインターフェースを提供し、LLMの機能拡張や再利用性を高めます。DIと同様に、疎結合、交換可能性を実現し、機能の分離、セキュリティ強化、柔軟なデプロイを可能にします。MCPクライアントはDIコンテナとして機能し、LLMと外部ツールの連携を管理します。今後の展望として、MCP標準の拡張、AIエージェントフレームワークの開発、特定用途向けMCPサーバーの増加などが期待されています。
引用元: https://zenn.dev/tesla/articles/3d1ba14614f320
言語モデルの内部機序:解析と解釈2025年3月10日、言語処理学会でのチュートリアル「言語モデルの内部機序:解析と解釈」のスライドの要約です。言語モデルの理解には、モデルの入出力だけでなく、内部の表現や計算過程を解析・解釈することが重要です。解析では、モデルを抽象化・単純化し、人間が理解できるレベルまで落とし込みます。解釈では、モデルの表現や計算を言語、世界、知識と紐付け、意味を与えます。内部表現の分析では、ニューロンの重みや活性値、ベクトル集合の構造などを調べます。計算過程の分析では、注意機構のパターン、語彙空間への射影、出力への影響度、サブネットワークなどを調べます。ただし、この方法には限界があり、機能の局在性や一対一対応という前提が常に成り立つとは限りません。「表現と計算」という視点自体にも懐疑的な意見があります。
引用元: https://speakerdeck.com/eumesy/analysis_and_interpretation_of_language_models
ITに近い環境にいると全く分からないと思いますが多くの中小企業はLANやAD・ファイルサーバーにオフィスアプリとパワポくらいしかITを使ってませんIT業界にいると忘れがちですが、中小企業ではIT活用が進んでいないケースが多くあります。LAN、AD、ファイルサーバー、Word、Excel、PowerPoint程度で、SaaSを活用していても、基本的なレベルに留まっているのが現状です。具体的には、パソコンが一人一台でなかったり、経理部がPDFの請求書を印刷して社内便で回覧したり、電卓で計算した数字をSaaSに入力するなどの状況が見られます。業務効率化を提案しても、「やり辛い」「今のままで回せている」と拒否されることもあるようです。ITに慣れていない人が多く、便利な機能を知らないため、教えると驚かれることもあります。
引用元: https://togetter.com/li/2523114
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク TypeScript 製の AI エージェントフレームワーク Mastra
Mastraは、TypeScript製のAIエージェント構築フレームワークです。REST API、OpenAPI、Playgroundを提供し、AIエージェントに必要な機能(エージェント定義、ワークフロー、RAG、評価、オブザーバビリティ)を実装できます。LLMプロバイダ(OpenAI, Anthropic等)のAPIキーが必要ですが、ローカルLLMも利用可能です。AIエージェントの品質評価や、OpenTelemetryによるトレース収集もサポートしており、開発から運用までを支援します。
引用元: https://azukiazusa.dev/blog/typescript-ai-agent-framework-mastra/
MCPでLLMに行動させる - Terraformを例とした tfmcp の紹介LLM(大規模言語モデル)からTerraformを操作するtfmcpを紹介。Model Context Protocol (MCP)を活用し、LLMが外部サービスと連携して「行動」できるようにする。MCPはJSON-RPCベースのプロトコルで、リソース、ツール、プロンプトを定義。公式SDKも提供されているが、Rustで独自実装も可能。tfmcpはTerraform設定ファイルの読み取り、プラン解析、適用、状態管理、設定ファイルの作成・修正が可能。インストールはcargo install tfmcpで簡単に行える。Claude Desktopとの連携もサポート。セキュリティ面では、信頼できるソースからのインストール、最小権限の原則、サンドボックス環境での実行、監査ログの有効化、機密情報のフィルタリング、定期的なセキュリティレビューが重要。tfmcpのアーキテクチャは、MCPサーバー、Terraformサービス、コア、設定管理の各コンポーネントで構成。
引用元: https://syu-m-5151.hatenablog.com/entry/2025/03/09/020057
GitHub Copilot Chat、Visual Studio/VS Code上で画像を入力できるVision機能がパブリックプレビューに gihyo.jpGitHub Copilot Chatで、画像入力機能(Vision機能)が使えるようになりました。Visual Studio/VS Code上で、エラー画面のスクショやデザインモックアップをCopilotに直接見せて、解決策の提案やコード生成のヒントをもらえます。使い方は簡単で、ドラッグ&ドロップ、クリップボード貼り付け、専用メニューからのスクショ添付に対応。JPEG/JPG、PNG、GIF、WEBP形式の画像が使えます。GPT-4oモデルで提供されており、Copilotの「Editor Preview Features」を有効にする必要があります。
引用元: https://gihyo.jp/article/2025/03/github-copilot-vision-input
お便り投稿フォームVOICEVOX:春日部つむぎ
-
関連リンク Peak Performance, Minimized Memory: Optimizing torchtune’s performance with torch.compile & Liger Kernel
PyTorchのLLM fine-tuningライブラリtorchtuneを、torch.compileとLiger Kernelで高速化する手法を紹介。Liger Kernelはメモリ効率に優れたTritonカーネル集。torchtuneのTransformerDecoderを修正し、Liger KernelのFLCE Lossを使うことで、メモリ使用量を削減しつつ性能向上。A100 GPUでの実験で、torch.compileがPyTorch Eagerより高速で、Liger Kernel導入でメモリがさらに削減。batch size 256でピークメモリ47%削減。
引用元: https://pytorch.org/blog/peak-performance-minimized-memory/
Mistral OCR Mistral AIMistral AIが新しいOCR API「Mistral OCR」を発表しました。これは、画像やPDFからテキスト、画像、表、数式などを高精度に抽出できるツールです。特に複雑なドキュメントの理解に優れており、多言語対応、高速処理、構造化された出力が可能です。研究機関での科学論文のデジタル化、文化遺産の保存、顧客サービスの効率化など、様々な分野での応用が期待されています。APIはすでに利用可能で、試用もできます。
引用元: https://mistral.ai/fr/news/mistral-ocr
Evaluate RAG responses with Amazon Bedrock, LlamaIndex and RAGAS Amazon Web ServicesRAG(Retrieval Augmented Generation)モデルの性能評価に、Amazon Bedrock、LlamaIndex、RAGASというツールを組み合わせる方法を紹介。RAGは、組織内のデータを利用してAIの応答精度を向上させる技術。記事では、RAGASとLlamaIndexを使って、検索と生成の両方の品質を評価し、改善点を見つける方法を解説。Bedrockの高性能な基盤モデルを活用し、LangChainと連携してサンプルRAGアプリケーションを構築。評価データセットを作成し、Faithfulness(忠実さ)、Answer Relevancy(回答の関連性)、Answer Correctness(回答の正確さ)などの指標でモデルを評価。LlamaIndexも同様に評価に利用可能。これらのツールを使うことで、AIの応答をより正確で組織のニーズに合ったものに改善できる。
引用元: https://aws.amazon.com/blogs/machine-learning/evaluate-rag-responses-with-amazon-bedrock-llamaindex-and-ragas/
松屋のメニュー「日曜遅めに起きて冷蔵庫にあんまり物が入ってないことを思い出したけど買い物もめんどくさい独身丼」が話題に→社長も反応松屋の「とろっとたまごソーセージ丼」について、あるユーザーが「日曜遅めに起きて冷蔵庫にあんまり物が入ってないこと思い出したけど買い物もめんどくさい独身丼」というネーミングを提案し話題になっています。SNSでは「おいしそう」「懐かしい味」といったコメントとともに、松屋の社長も反応しています。
引用元: https://togetter.com/li/2521593
お便り投稿フォームVOICEVOX:ずんだもん
-
関連リンク How Build.inc used LangGraph to launch a Multi-Agent Architecture for automating critical CRE workflows for Data Center Development.
Build.inc社が、LangGraphを活用し、商用不動産(CRE)におけるデータセンター開発の重要なワークフローを自動化するマルチエージェントアーキテクチャを構築した事例を紹介。25以上のサブエージェントからなる複雑なシステム「Dougie」は、これまで4週間かかっていた土地調査を75分で完了させる。複雑性と可変性、データの断片化、専門知識の必要性から、従来のソフトウェアでは難しかった自動化を、エージェントファーストのアプローチで解決。複数の専門エージェントが連携し、タスクを分割・実行することで、効率化を実現している。LangGraphによる非同期実行で並列処理を行い、大幅な時間短縮。エージェントをタスクに合わせて最適化し、単純化することで、より正確でモジュール化されたシステムを構築。不動産開発における反復的で複雑なワークフローを自動化し、時間とコストを削減、より戦略的な業務への集中を可能にする。
引用元: https://blog.langchain.dev/how-build-inc-used-langgraph-to-launch-a-multi-agent-architecture-for-automating-critical-cre-workflows-for-data-center-development/
「Gemini」、メモリー機能を全ユーザーに開放–有料ユーザー向けの新機能もGoogleのAI「Gemini」がアップデート。以前は有料版限定だったユーザーの好みなどを記憶する機能が、全ユーザーに開放されました。これにより、名前やプロジェクトなどの情報を毎回入力する手間が省け、より関連性の高い回答が得られます。また、有料版ユーザー向けには、スマホの画面やカメラを通してGeminiが周囲の状況を認識し、質問に答えられる機能が追加。
引用元: https://japan.zdnet.com/article/35230016/
色々なことをClineにやらせてみたAIコーディングツールClineを使って、コーディング以外にも色々なことを試した事例を紹介。タワーディフェンスゲームの作成、マリオのプレイ、ネットワーク問題の調査、図の作成など、Clineの応用範囲が広がることがわかる。特に、ネットワーク調査では、 Clineにコマンド実行を指示することで、問題の切り分けをAIが行い、頼れる存在になる様子が示されている。 Clineは開発者向けのツールだが、今後は誰もが使えるAIエージェント的ソフトが発展していくと予想される。
引用元: https://karaage.hatenadiary.jp/entry/2025/03/05/073000
指導教員がAIに研究テーマを与えたら論文が20分で生成されてしまったらしく「もう大学院生は要らないのでは?」となったが議論したら更に悲しい結論が出たAIがM2レベルの論文を短時間で生成したことが話題。しかし、AIの利用にはコストがかかる一方、大学院生は学費を払うため、人材育成とは別の側面で存在意義があるという意見が出ている。AIは既存知識のまとめ役であり、新しい視点や発見を生み出す研究には、まだ人間の役割が重要であるとの議論も。
引用元: https://togetter.com/li/2520654
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク AIエージェント時代の可能性と実践 #AIエージェント_findy
LayerX名村氏によるAIエージェントに関する発表資料です。LLMによってソフトウエアが「考える力」を手にしたことで、ソフトウエアの能力が限界突破し、プログラムは「定義された入力→定義された出力」から「予測不要な入力→予測可能な出力」へ変化しました。AIエージェント開発に必要な技術要素として、Model Routing、Workflow、Tool、Memory、RAG、Evaluationを紹介。AIエージェントの設置場所として、サーバー、ブラウザ拡張、デスクトップアプリを比較検討し、AI SDK by Vercel、Meilisearch、LlamaIndex.TS、Langfuse等の技術を紹介しています。プロンプトインジェクションに対する対策も重要です。
引用元: https://speakerdeck.com/layerx/ai-agents-practice-202503
Inception LabsのMercury Coder:dLLMsInception Labsが開発したMercury Coderは、Diffusion Model(拡散モデル)をベースにした新しいLLMです。従来のTransformerモデルと異なり、ノイズ除去のプロセスでテキストを生成します。これにより、NVIDIA H100 GPU上でGPT-4の最大10倍の速度でテキストを生成できます。特にコード生成に優れており、高速なプログラミング支援が可能です。今後の展望として、チャットボットへの応用も期待されています。
引用元: https://zenn.dev/acntechjp/articles/8827db27237c8a
IBM、推論機能を強化したLLM「Granite 3.2」を発表IBMが企業向けLLM「Granite 3.2」を発表。推論機能向上が特徴で、CoT推論という手法で複雑な問題を分割、人間のような推論を目指しています。特に、TPOフレームワークにより、推論能力を高めつつ、タスク全体の性能を維持。また、ドキュメント理解に特化したVLMも導入し、大量のPDFデータで学習させています。さらに、長期予測が可能なTiny Time Mixerモデルも提供。これらのモデルはHugging Face等で公開されており、Apache License 2.0で利用可能です。
引用元: https://japan.zdnet.com/article/35229974/
OpenAI最高研究責任者が「(GPT-4.5では)ASCIIアートを作る能力なんかもすごく向上しました」というから初音ミクのアスキーアートを頼んでみましたOpenAIの最高研究責任者がGPT-4.5でASCIIアート生成能力が向上したと発言。実際に初音ミクのASCIIアートを生成させたところ、「やる夫」風のものが生成され、SNSで話題になっています。期待されたほどの出来ではなかったようです。
引用元: https://togetter.com/li/2520076
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク GitHub - WujiangXu/AgenticMemory: A novel agentic memory system
LLMエージェント向けの新しいAgentic Memoryシステム。従来の記憶システムよりも高度な記憶整理能力を持つ。Zettelkastenの原則に基づいた動的な記憶構造、高度な索引付け、構造化された属性によるノート生成、知識ネットワークの相互接続、継続的な記憶の進化と改良、エージェント主導の適応的な記憶管理が特徴。実験では既存のベースラインを上回る性能を示した。
引用元: https://github.com/WujiangXu/AgenticMemory
Pixtral-12B-2409 is now available on Amazon Bedrock Marketplace Amazon Web ServicesMistral AIのVLM「Pixtral 12B」がAmazon Bedrock Marketplaceで利用可能になりました。画像とテキストの両方を理解でき、図表の解釈、文書の質問応答、推論などが可能です。128Kトークンまでの長文に対応し、高解像度画像も処理できます。Apache 2.0ライセンスで商用利用も可能です。Bedrock Marketplaceで簡単にデプロイでき、APIやplaygroundで試すことができます。活用例として、論理パズル、商品情報抽出、車両損傷評価、手書き文字認識、GDPデータ分析などが紹介されています。利用後は不要なリソースを削除しましょう。
引用元: https://aws.amazon.com/blogs/machine-learning/pixtral-12b-2409-is-now-available-on-amazon-bedrock-marketplace/
Generative AI with Stochastic Differential Equations - IAP 2025MITのコース「Generative AI with Stochastic Differential Equations」の紹介です。拡散モデルやFlow-basedモデルといった生成AIの基盤となる数学的フレームワークを、基礎から学ぶことを目的としています。画像、動画、分子、音楽など幅広いデータ形式に対応。講義では、確率微分方程式のツールボックスを使い、Flow MatchingとDiffusion Modelを構築します。全3回の演習ラボでは、手を動かしながら理解を深めます。受講には線形代数、実解析、確率論の知識と、Python、PyTorchの経験が推奨されています。
引用元: https://diffusion.csail.mit.edu
行間とエクスキューズのあいだ ──対談|星野源×桜井政博(ゲームクリエイター)〈前編〉 YELLOW MAGAZINE+ 星野源 オフィシャルサイト星野源とゲームクリエイター桜井政博の対談。星野は桜井のゲームとコラムに親しんでおり、YouTube番組『桜井政博のゲーム作るには』に関心を持つ。番組は、桜井が自ら台本・キャプチャを行い週2~3回更新。制作費は約9000万円。桜井は技術伝承より「底上げ」を目指し、視聴者へのプラスアルファを提示。リーダーは役割の違いであり、チームより偉いわけではないと語る。桜井は、ゲームボーイで初心者も楽しめる『星のカービィ』を制作。周りの要望や状況に応じたゲーム制作をしてきた。依頼主やゲームを遊ぶ人にどれくらいリーチするかということに興味がある。
引用元: https://www.hoshinogen.com/yellow-magazine-plus/detail/?id=266
お便り投稿フォーム(株式会社ずんだもんは架空の登場組織です)
-
関連リンク Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing
大規模言語モデル(LLM)は処理できるトークン数に上限があり、長文の処理が課題でした。新しい手法InfiniRetriは、LLM自身の注意機構を利用して、入力長に制限なく正確な情報検索を可能にします。0.5Bパラメータのモデルで100万トークンを超えるデータに対して100%の精度を達成し、既存手法や大規模モデルを凌駕しました。追加学習なしで適用でき、推論速度と計算コストを削減します。
引用元: https://arxiv.org/abs/2502.12962
Gemini Code Assist によるコーディング支援が無償で利用可能にGoogleのAIコーディング支援ツール「Gemini Code Assist」の無償版が登場。学生や個人開発者も利用可能。Gemini 2.0を搭載し、実質無制限のコード補完(月最大18万回)を提供。Visual Studio CodeやJetBrains IDEで利用でき、GitHubとの連携でコードレビューも支援。自然言語でのコード生成や説明も可能。より高度な機能が必要な場合は有償版も用意。
引用元: https://cloud.google.com/blog/ja/topics/developers-practitioners/gemini-code-assist/
Cline / RooCodeを安全に使うためにDevContainerを使い始めたAIコーディングエージェントの利用時に発生しうる事故(rm -rfの暴走など)からローカル環境を保護するため、DevContainerの導入を検討した記事。DevContainerはVSCodeの拡張機能で、開発環境をDockerコンテナ内に構築する。これにより、プロジェクトごとに独立した環境が作れ、ローカル環境を汚染しない。Dockerfileを使ったカスタム環境の構築方法や、PHP Laravelでの具体的な設定例、RooCodeの組み込み方、docker-composeとの連携について解説。DevContainerを使うことで、AIツールを安全に試せる環境を手軽に構築できる。
引用元: https://zenn.dev/kusuke/articles/972fc135f85b86
いらすとや、おまえだったのか。公共の場や商店の貼り紙をAIイラストの氾濫から守ってくれていたのは…海外でAIイラストが増える中、日本では「いらすとや」が公共の場やお店の告知物を守っているという意見がSNSで話題です。「いらすとや」は、無料で利用できる豊富なイラスト素材を提供しており、その親しみやすい絵柄が安心感を与えています。AIイラストが急速に普及する一方で、「いらすとや」の存在が、ある意味でAIイラストの氾濫を抑制する役割を果たしているという見方が出ています。ただし、いらすとやの普及によって、イラストレーターの仕事が減ったという意見もあります。
引用元: https://togetter.com/li/2518133
お便り投稿フォームVOICEVOX:春日部つむぎ
-
関連リンク LangGraph 0.3 Release: Prebuilt Agents
LangGraphはAIエージェント構築フレームワークとして、Replit, Klarna, LinkedIn, Uber等で採用されている。LangGraphの基本理念は低レベルな抽象化に留めることだが、より高レベルな抽象化の価値も重視している。今回の0.3リリースでは、langgraphからlanggraph-prebuiltへcreate_react_agentを分離し、PythonとJavaScriptで構築された新しいprebuilt agentsを導入する。これらは、一般的なエージェントパターンを簡単に試せるようにしつつ、LangGraph上に構築されているため、必要に応じて容易にカスタマイズできる。コミュニティによるprebuilt agentsの貢献も奨励している。
引用元: https://blog.langchain.dev/langgraph-0-3-release-prebuilt-agents/
Claude 3.7 Sonnetの技術紹介|MizuAnthropic社の最新LLM「Claude 3.7 Sonnet」が登場。特徴は、AIが「考える時間」を指定できる拡張思考モード、128Kトークン対応、コーディング能力向上、応答の柔軟性向上、開発者向けコマンドラインツールClaude Codeの導入。SWE-bench Verifiedで最高性能、TAU-benchで最高スコアを達成。Webブラウザ、アプリ、APIで利用可能。APIでは思考時間やトークン設定を調整可能。無料プランでも利用可能だが、拡張思考モードは有料プランのみ。
引用元: https://note.com/dr_yh/n/ncbfc1194c1bb
RoboPianist: Dexterous Piano Playing with Deep Reinforcement LearningUC Berkeley、Google DeepMind、Stanford University、Simon Fraser Universityが共同で、深層強化学習を用いてロボットの手にピアノを演奏させる研究を発表しました。この研究では、高次元制御を進歩させるためのシミュレーションベンチマークとデータセットを公開しています。MuJoCo物理エンジンで構築された環境で、24自由度を持つShadow Dexterous Handsを使用し、MIDI規格の音楽データを基にピアノ演奏を学習。演奏の評価には、精度、再現率、F1スコアを使用しています。また、ピアノの運指(どの指でどの音を弾くか)を考慮した報酬関数を導入し、Repertoire-150という運指ラベル付きMIDIデータセットを構築しました。強化学習アルゴリズムDroQを使用し、エネルギーコスト、将来の目標予測、アクション空間の制約などを加えることで性能が向上。従来のMPC手法と比較して高いF1スコアを達成しました。課題として、ロボットの手の形状による制約や、指のストレッチが必要な楽曲への対応が挙げられています。
引用元: https://kzakka.com/robopianist/#demo
ミドルエンジニアの「基礎体力」を養いたい。リクルートグループのニジボックスが研修プログラムに込めた熱き思いニジボックスがミドルエンジニア向け研修プログラムを開発。指示された範囲を超え、技術選定や問題解決に必要な知識・技術を「基礎体力」と定義。研修では、深い知識理解、自力での知識獲得、論理的な判断と説明能力の3要素を重視。シニアエンジニアが議論を重ね、作問ガイドラインに基づき作成。レビューではメンターが考えさせる形式で、本質的な理解を促す。研修はエンジニアとしての市場価値向上も視野に入れている。
引用元: https://hatenanews.com/articles/2025/02/27/103000
お便り投稿フォームVOICEVOX:ずんだもん
- Laat meer zien