InferNews

Moonlake AI 3D 建模代理

Moonlake AI 推出的 3D Agent 是其世界建模代理的重要更新，能直接在 Blender 中操作電腦，自動建立 3D 場景、關節資產與複雜環境。

主要功能

它能從單一圖像重建可編輯的室內外場景，無需預定義規則；同時建模具零件與關節的資產，並持續精煉數千步驟。
代理像技術藝術家般運作，整合現有製作流程，支援資產管理系統並批量啟動任務。
早期合作夥伴已用於模擬資產創作、遊戲世界建置與場景清理等重複工作自動化。

應用場景

適用於遊戲開發、3D 內容生成與生產線自動化，能加速互動世界建置達 100 倍。
Moonlake AI 獲 NVIDIA 等投資，聚焦多模態推理模型與生成遊戲引擎。

Categories: NVIDIA, Agent, 3D

AcademiClaw 包含80個大學生的學術任務雙語基準測試

AcademiClaw 包含80個大學生的學術任務雙語基準測試為AI代理呈現了一項獨特的學術挑戰，透過使用真實世界的學術任務。這80個任務直接來自學生，突顯了當前AI不足之處。

該基準測試涵蓋了各種類別，如研究、軟體工程和語言創意，確保了全面的測試。研究人員和開發者可以專注於這些類別，以識別AI的優勢和弱點。每個任務都經過精心設計，並進行多維度評估，增強其可靠性。

在實際應用中，AcademiClaw 使用CPU和GPU任務的混合，根據需求自動路由。這種設置確保了在測試不同AI模型時的可重現性和公平性。用戶從詳細的評分維度和安全審核中受益，提供了對模型性能的洞察。

教育工作者和AI研究人員將發現 AcademiClaw 對於提升AI能力極具價值。它需要能夠處理複雜、長時間範圍任務的強大LLMs。

主要收穫：
– AcademiClaw 使用真實的學生挑戰來測試AI。
– 它涵蓋了多樣化的學術領域，並進行詳細評估。
– 需要堅固的LLMs才能有效完成任務。
– 為AI開發和教育提供寶貴的見解。
– 支援CPU和GPU任務，以實現靈活的測試。

Source: https://github.com/GAIR-NLP/AcademiClaw

Categories: Agent, 開源, OpenClaw

SenseNova-U系列：一種突破性的多模態AI

SenseNova U1引入了一種突破性的多模態AI方法，通過單一架構統一語言和視覺。這種創新允許文本和圖像之間無縫互動，而不需要單獨的適配器，增強了效率和一致性。

在探索SenseNova U1時，最初應關注其核心架構NEO-Unify，這使得模型能夠將視覺和文本數據作為統一的複合體進行處理。實際上，這意味著模型可以更有效地跨不同類型的輸入進行推理，保留語義豐富性和視覺忠實度。

研究人員和開發者最能受益於SenseNova U1的能力，特別是那些從事需要高密度資訊渲染或交錯圖文生成應用的人。該模型處理複雜任務（如創建知識插圖或旅行日誌）的能力使其成為一個寶貴的工具。

為了充分利用SenseNova U1，用戶應擁有能夠支援多模態任務的強大大型語言模型（LLM）。該模型的開源性質也鼓勵社區貢獻和進一步發展。

• SenseNova U1原生統一多模態處理。
• 它擅長交錯圖文生成。
• 用戶需要一個穩健的LLM以實現最佳性能。
• 適合研究人員和開發者。
• 在開源多模態AI中設定了新的標準。

Source: https://github.com/OpenSenseNova/SenseNova-U1

Categories: 影像模型, 影像處理, 模型, 開源

ClawMetry：看見您的代理思考

實時動畫流程儀表板是一個突出的功能，展示了通道、大腦、工具等之間的消息交換。這種可視化幫助開發者一目瞭然地理解複雜的交互。

Clawmetry 是一個專為 OpenClaw 設計的開源即時監控儀表板，它會自動讀取 OpenClaw 的現有 openclaw.json 配置文件和 Session 日誌，顯示 Agent 活動、工具呼叫、Token 消耗等資訊。
它是獨立運行的 Python 服務，使用 pip install clawmetry 安裝後啟動，就能透過 Web 介面（預設 http://localhost:8900）查看資料，無需任何額外配置。
Clawmetry 只讀取資料，不會寫入或改變 OpenClaw 的任何設定檔案，對 OpenClaw 性能影響極小（獨立進程，額外記憶體約 30MB）。

安裝與使用

安裝後，它會掃描你已配置的 OpenClaw 頻道，只顯示實際在 openclaw.json 中設定的項目。
若要自訂，可用 clawmetry --port 9000 --workspace /path/to/openclaw/workspace 指定路徑，但仍僅讀取不修改。
適合你作為 AI/ML 工程師，用來監控 RAG 系統或 Cantonese NLP Agent 的運行狀態。

主要功能：
* 自動偵測 AI 代理配置
* 提供實時流程圖以提高清晰度
* 高效追蹤令牌使用和成本
* 支援多種大型語言模型

Source: https://github.com/vivekchand/clawmetry

Categories: 開源, OpenClaw

AnyRecon：使用視頻擴散模型進行任意視角3D重建

OpenImagingLab/AnyRecon 在 GitHub 上

AnyRecon利用視頻擴散模型從輸入視頻中重建任意的3D視圖。這個創新的工具對於希望探索視覺敘事新維度的內容創作者和研究人員特別有用。

在開始使用AnyRecon時，最初應專注於理解其核心功能——將連續幀轉換為空間上一致的3D重建。該過程涉及將視頻數據通過預訓練模型，該模型輸出詳細的3D模型。此工作流程需要仔細準備輸入視頻並精確配置模型參數。

研究人員和藝術家最能受益於AnyRecon的功能。它使他們能夠從現有的視頻內容生成沉浸式的3D環境，為虛擬現實應用和互動媒體打開了可能性。然而，用戶應該意識到該工具需要強大的大型語言模型（LLM）才能達到最佳性能。

主要收穫包括：
* AnyRecon使用視頻擴散模型進行3D重建。
* 適合內容創作和研究目的。
* 需要堅固的LLM以獲得最佳效果。

了解AnyRecon的底層機制有助於用戶有效地量身定製他們的項目。通過嘗試不同的視頻輸入和調整設置，創作者可以解鎖獨特的視覺體驗。

Source: https://github.com/OpenImagingLab/AnyRecon

Categories: 香港大學, 香港中文大學, 影像處理, 模型, 開源

詳細的AI影視劇創作專業流程講解

目前最詳細的AI影視劇創作專業流程講解，運用傳統影視工業流程思維幫助你製作出更好的AI影視作品

目前最详细的AI影视剧创作专业流程讲解，运用传统影视工业流程思维帮助你制作出更好的AI影视作品

Watch this video on YouTube

Categories: 影像處理, 教學

Vista4D 使用 4D 點雲進行視頻重拍

Vista4D 預告圖 — Eyeline-Labs/Vista4D 在 GitHub 上

Vista4D 提供了一種獨特的視頻重拍方法，通過從新的角度合成場景。它利用 4D 點雲有效地處理現實世界中的視頻缺陷。這使得它特別適合希望擴展其視覺敘事能力的創作者。

在開始使用 Vista4D 時，重點是理解其核心功能——從新穎的角度重拍視頻。該框架對點雲工件的強健性確保了即使在不完美的重建下也能可靠運行。此特性對於維護場景完整性至關重要。

在實際應用中，Vista4D 受益於動態場景擴展和 4D 場景重組的專業人士。它在保留場景內容的同時允許精確的相機控制，為創意編輯打開了大門。用戶可以預期在視頻製作流程中獲得增強的靈活性。

該框架需要一個強大的大型語言模型（LLM）以獲得最佳結果。創作者和編輯人員將發現 Vista4D 因其創新性的視頻操作方法而極具價值。

• 使用新穎視角增強視頻重拍
• 對點雲工件具有強健性
• 適合動態場景擴展和重組

Source: https://github.com/Eyeline-Labs/Vista4D

Categories: 影像模型, 影像處理, 模型, 視頻模型, 開源

MocapAnything 創新的動作捕捉方法

MoCapAnything V2 預告片 — 點擊以在項目頁面觀看視頻 — animotionlab26/MocapAnything 在 GitHub 上

MoCapAnything V2 為那些從事動畫、遊戲開發和需要動作捕捉能力的研究人員提供了一個令人信服的解決方案。該工具通過將單目視頻轉換為詳細的骨骼動畫而脫穎而出，而不依賴於中間網格模型。對於希望在保持高精度的同時簡化工作流程的專業人士來說，MoCapAnything V2 值得探索。最初，用戶應專注於理解參考錨定旋轉的核心概念，這簡化了使用單一參考姿勢-旋轉對將姿勢轉換為旋轉的過程。這種方法確保生成的動畫既精確又在不同資產之間保持一致。

在實踐中，MoCapAnything V2 通過其主要模型 video2pose2rot 運行，該模型整合了兩個子任務：從視頻幀預測關節位置（video2pose）和將這些位置轉換為關節旋轉（pose2rot）。這些任務共同優化，消除了對分析逆運動學的需求。結果是一個無縫的管道，可以直接從輸入視頻提供 BVH 準備好的關節旋轉。這種方法不僅提高了效率，還為速度至關重要的實時應用打開了可能性。處理多樣角色模型的動畫師和開發人員將發現這特別有益，因為該系統可以使用匹配物種的參考框架來適應各種骨骼結構。

在其項目中處理複雜、任意骨骼的人。無論是動畫人類角色還是奇特生物，該工具的靈活性都允許在沒有傳統方法約束的情況下進行準確的動作捕捉。計算機視覺和機器學習領域的研究人員也會欣賞這一端到端優化的創新，為動作捕捉技術的進一步發展提供了堅固的框架。

然而，也有一些權衡需要考慮。雖然無網格的方法顯著提升了處理速度，但它可能無法捕捉到基於網格系統所能處理的細節。用戶應評估 MoCapAnything V2 提供的細節水平是否符合他們項目的要求。此外，對參考姿勢的依賴意味著為了獲得最佳結果，需要仔細選擇和校準。儘管有這些考慮，MoCapAnything V2 所提供的優勢使其成為任何從事動作捕捉的人的工具箱中有價值的添加。

MoCapAnything V2 在動作捕捉技術方面代表了一個重要的進步。其端到端設計，加上參考錨定旋轉和無網格處理，使其成為動畫師、遊戲開發者和研究人員的強大工具。通過專注於關鍵特徵並理解實際影響，用戶可以有效地利用此工具。雖然有一些限制需要注意，但對於許多應用而言，提高效率和靈活性的好處遠遠超過缺點。

Source: https://github.com/animotionlab26/MocapAnything

Categories: 影像處理, 開源

OmniShotCut 在鏡頭邊界偵測任務的最新技術

OmniShotCut 作為一種先進的解決方案，在各種類型的影片中都能出色地偵測鏡頭邊界，從動畫到體育轉播皆適用。該工具採用基於鏡頭查詢的影片轉換器，與傳統方法相比，提供了更高的靈敏度和資訊豐富性。處理多樣化影片來源的影片編輯師、內容創作者和研究人員應該考慮使用 OmniShotCut，因為它能夠準確識別突兀的跳接和微妙的轉場如溶解和漸變。對於初次使用該工具的人，首先理解鏡頭查詢機制的核心概念可以提供堅實的基礎。這種方法使模型能夠有效地分析和分類影片中的不同類型的鏡頭變化，特別適合需要對影片編輯過程進行精確控制的專業人士。

實際上，OmniShotCut 通過其複雜的轉換器架構處理影片幀來運作。模型學習根據視覺線索和時間關係區分不同的鏡頭類型。用戶可以從這項技術中獲益良多，特別是在處理需要細緻編輯的大批量影片內容時。自動偵測這些邊界可以節省大量的時間和精力，讓編輯師能夠專注於創意方面而非手動分割。此外，本地 Gradio 介面的加入簡化了實驗和與現有工作流程的整合，即使對那些程式設計經驗有限的人也同樣易於使用。

OmniShotCut 的主要受益者是媒體製作專業人士、研究影片內容的學術研究人員以及從事影片分析應用的開發人員。這些群體可以利用該工具的能力來提升他們項目的品質和效率。然而，需要注意潛在的權衡。雖然 OmniShotCut 在準確性和多功能性方面表現優異，但用戶必須確保擁有足夠的計算資源以高效運行模型。此外，底層轉換器架構的複雜性可能對不熟悉深度學習概念的用戶構成挑戰。因此，基本的機器學習原則理解將會很有幫助。

為了最大化 OmniShotCut 的效益，用戶應從探索提供的 Gradio 示範開始。這種親手實踐的體驗可以提供對模型性能的洞察，並有助於理解其輸出。觀察的重點包括模型如何處理不同類型的影片以及其鏡頭變化偵測的準確性。透過實驗各種輸入影片，用戶可以對將 OmniShotCut 應用於特定需求充滿信心。此外，在推理過程中考慮 clean_shot 模式可以簡化結果，提供僅聚焦於有效鏡頭而無轉場或突兀跳接的乾淨輸出。

OmniShotCut 代表了鏡頭邊界偵測技術的重大進步。其堅固的設計和多功能應用使其成為任何處理影片內容的人的無價資產。儘管在計算需求和技術知識方面存在某些考量，但使用 OmniShotCut 的好處遠遠超過這些小障礙。隨著影片分析領域的不斷髮展，像 OmniShotCut 這樣的工具無疑將在塑造未來創新中發揮關鍵作用。

Source: https://github.com/UVA-Computer-Vision-Lab/OmniShotCut

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

Amaze 獨特的視覺規劃工具

Amaze 提供了一種獨特的視覺規劃方法，透過先進的影像編輯模型來實現。這個儲存庫對於有興趣探索電腦視覺與AI驅動問題解決交集的研究人員和開發人員特別有價值。該專案專注於針對特定任務微調這些模型，例如導航迷宮，這需要對空間關係和模式識別有深入的理解。使用者應首先熟悉支援的模型，包括Bagel、Janus-Pro-7B和Qwen-Image-Edit，以及允許與外部服務靈活整合的API基於的模型。

在實踐中，Amaze通過應用監督式微調（SFT）技術來適應預訓練模型以符合迷宮解決任務的細微差異。該過程涉及使用config/資料夾中詳細指定的參數配置模型，其中maze.py包含Amaze Bench的特定設定。配置完成後，使用者可以進入sft/目錄執行為每個模型量身定做的微調腳本。此步驟對於優化目標任務的性能至關重要，確保模型能夠有效地解釋和操作視覺數據以解決迷宮。

使用Amaze的好處對於那些需要複雜視覺推理能力的專案最為顯著。機器人、自動系統和AI驅動遊戲等領域的研究人員可以利用此工具增強其應用程式在複雜環境中的導航能力。此外，希望將尖端影像編輯技術整合到產品中的開發人員會發現Amaze因其堅固的支持和清晰的文檔而無價。

然而，也有一些權衡需要考慮。對於初學者或沒有豐富機器學習經驗的人來說，設置和微調模型的複雜性可能會構成挑戰。根據專案規模的不同，訓練和推理所需的計算資源也可能相當龐大。使用者應仔細評估其硬體能力並分配足夠的時間進行實驗和優化。

要開始使用，請專注於理解專案結構。該儲存庫組織成幾個關鍵目錄：config/、data/、infer/、scripts/和sft/。每個目錄在工作流程中都具有不同的目的，從管理配置和加載數據集到執行推理和微調過程。特別注意infer/目錄，它包含了生成模型響應和計算評估指標的核心邏輯。該目錄中的maze_metrics.py文件尤其重要，因為它定義了用於評估模型在迷宮解決任務上表現的專業指標。

Amaze提供了一個全面的框架，用於在視覺規劃場景中利用影像編輯模型。雖然它需要一定的專業知識和資源投資，但在增強視覺推理能力方面的潛在收益使其成為相關領域專業人士值得追求的事業。透過仔細瀏覽其特點和功能，使用者可以解鎖AI驅動問題解決的新可能性。

Source: https://github.com/spatigen/amaze

Categories: 庫, 視覺模型, 開源

Page 1 of 71

1 2 3 … 71 Next »