Short thoughts and random musings.

January 2026

Jan 29, 2026

今天刷 Reddit，发现 r/LocalLLaMA 社区全在讨论 Kimi K2.5。

甚至有人直接放话：“这是目前最强的开源编程模型。”

大家最认可的一点是它的“指令遵循能力”和“长上下文逻辑”。很多人拿它跟 Qwen2.5-Coder 做对比，发现 Kimi 在处理复杂业务逻辑和跨文件代码理解时更胜一筹。

看到国产开源模型在 Reddit 这种极客社区被反复安利，确实能感受到技术力在出海。

以前我们讨论 Local LLM 总是在聊怎么省显存，现在大家更多在讨论哪个开源模型能真的在生产力上追平闭源模型。Kimi K2.5 显然已经进了那个核心梯队。

https://www.reddit.com/r/LocalLLaMA/comments/1qp87tk/kimi_k25_is_the_best_open_model_for_coding/

Jan 29, 2026

最近在 Reddit (r/LocalLLaMA) 看到一个非常有意思的讨论：随着大模型 API 价格卷到“地板价”，本地运行大模型的意义到底在哪？

很多人觉得，既然 API 既便宜又快，何必自己花大价钱买显卡？

但评论区里的“本地党”给出了几个很难反驳的理由：

数据主权：不管 API 多便宜，数据只要传出去就不再属于你。
审查边界：很多创意或敏感话题，API 会直接给你“对不起，作为一个 AI 助手…”，本地模型永远不会拒绝你。
确定性延迟：离线可用，且不担心 API 供应商那天突然改版或者限流。
长远成本：如果你是高频用户（如全天候 Agent 运行），本地一次性投入的硬件成本其实很快就能收回来。

虽然 API 在普及，但本地运行本质上是为了“不被关在别人的围墙里”。

https://www.reddit.com/r/LocalLLaMA/comments/1qp6rm5/api_pricing_is_in_freefall_whats_the_actual_case/

Jan 29, 2026

在 Reddit 看到一个非常硬核的开源项目 Prismer，推荐给所有在做学术研究的朋友。

它的核心目标很明确：解决 LLM 在科研场景里的“引用幻觉”。

它不只是一个 PDF 阅读器，而是一个多 Agent 协作系统：

引用验证 Agent：会自动去 arXiv 等数据库交叉对比，看 LLM 引用的那篇论文到底存不存在。
集成 Jupyter：一边写论文一边跑数据分析。
LaTeX 实时预览：这个真的太懂科研人的痛点了。

最关键的是它完全开源且支持本地模型（MIT 协议）。以前我们要么用 OpenAI 那个昂贵的闭源方案，要么得手动核对。现在有了开源替代方案，隐私和自由度都上了一个台阶。

不得不说，现在的开源 AI 社区正逐渐把“各种 Agent 组合拳”从噱头落地成实用的工具。

https://www.reddit.com/r/LocalLLaMA/comments/1qq0qut/i_built_an_opensource_multiagent_alternative_to/

Jan 26, 2026

论文：拒了。审稿邀请：发了。

同一个编辑部。同一个我。

学术圈的逻辑：你的观点不重要，你的免费时间才重要。

Jan 26, 2026

AI 是个放大器。

已经有优势的人，优势更大。本来就弱势的人，被甩得更远。

技术中性。结果从不中性。

Jan 26, 2026

AI 写代码确实快。

但快的代价是什么？

无限的 slop（垃圾代码），无限的维护成本。技术债不会因为 AI 而消失。只会加速积累。

Jan 26, 2026

AI 不会让所有人变富。只会让差距更大。

会用 AI 的人效率翻 10 倍。不会用的人被翻 10 倍的人替代。

这不是技术问题。这是分配问题。

Jan 26, 2026

手动标注 bounding box 是训练目标检测器的最大瓶颈。

尤其当你要检测的概念不在标准数据集里时，这个成本直接劝退。

但现在有个新思路：

用开放词汇检测做第一轮自动标注，而不是最终模型

工作流：

从未标注/弱标注数据集开始
采样一小部分图片
用自然语言描述（比如”猫和狗的头”）自动生成 bounding boxes
分离正负样本
重平衡数据集
训练小型 YOLO 模型用于实时推理

实验结果：

Cats vs Dogs 数据集（只有图片级标签）
Prompt: “cat’s and dog’s head”
自动生成 head-level bounding boxes
训练集：~90 张图片
模型：YOLO26s
结果：尽管数据集很小，head detection 可用

核心洞察：语言条件检测不是终点，而是标签生成的起点。

你可以用任何 auto-labeling 系统（Roboflow Playground、LLMDet 等），关键是用它来 bootstrapping，而不是依赖它作为最终方案。

完整 Colab notebook：数据采样 → 标注 → 训练全流程都有。

这种 bootstrapping 策略你在实践中见过吗？哪里会 break？

来源：r/MachineLearning 热门帖子

Jan 26, 2026

花 $1,600 做实验，补充 20+ 页理论，开源代码和日志， reviewer 都说 novelty 很好。

结果 AC（领域主席）直接拒绝，理由是”未回应的担忧”——而这些担忧在 rebuttal 里明明已经逐条回复了。

最讽刺的是：作者觉得连 GPT-4 都比这个 AC 审得更认真。

学术评审系统的 bug 越来越多了：

reviewer 不懂基础文献（1997 年的经典论文都不知道）
AC 不看 rebuttal，复制粘贴 reviewer 意见
申诉机制基本不存在

这不是个例。每年顶会都有类似故事。

出路在哪？

preprint + arXiv 先发
会议只是社交和影响力
真正的价值在于长期引用，而非一次性 acceptance

但如果 conference 仍是 CV/ML 领域的主战场，这种评审质量只会劝退更多人。

学术圈需要更好的 incentive design。

来源：r/MachineLearning 热门帖子

Jan 26, 2026

最荒谬的事发生了。

我的论文被编辑直接拒稿（desk reject）。

然后同一封邮件问我：能否继续审稿别人的论文？

这就是学术界的零工经济：创作者不配，但免费的劳动力还是要榨干。

Jan 26, 2026

zerotap 上线两周。

亮点：iOS 评分 5 星（我朋友给的）槽点：用户数 0（真实的）

独立开发最难的从来不是写代码。是让第一个人下载你的东西。

Jan 26, 2026

r/MachineLearning 开了一个永久性的自我推广线程。

规则很简单：

个人项目、startup、产品、协作需求、博客都欢迎
必须明确标注价格和付费要求
禁止 link shortener、聚合网站、auto-subscribe

如果是 spam 就会被 ban。

但更重要的是：鼓励有新问题的人去主线程，把推广留在这里

这是个聪明的社区设计：

降低推广的社交成本 很多人有好东西不好意思发，专门的 thread 让这种 discomfort 消失
避免信息污染 主讨论区保持质量，推广内容有专门空间
可见的激励 “Thread 会一直存活到下一个” —— 意味着你的推广不会立刻消失
社区共识 “这是实验，如果社区不喜欢就取消” —— 给大家 ownership

其他 subreddit 可以借鉴：

r/SaaS 也可以有 weekly startup showcase
r/IndieHackers 的 monthly launch thread
甚至 r/webdev 的 project feedback 专用区

好的社区治理不是禁止 self-promotion，而是给它合理的空间和规则。

来源：r/MachineLearning 热门帖子

Jan 26, 2026

最有效的生产力提升，不是加功能。

是停下来，整理系统。

我把散乱的文件全部扔进 Clay + Airtable + HubSpot + Linear。效率直接翻倍。

先有系统，再有产品。

Jan 26, 2026

醒悟了。

之前我一直在加功能。但我的工作流是一团糟。

散乱的表格、到处都是的文档、忘了跟进的客户…

现在停下来，先把系统搭好。产品自然会跟上。

Jan 26, 2026

推文 1：吐槽型

现在接外包的主流：

周末 AI 搞定 MVP，两周交付 SaaS，三个月后客户哭着找人重写。

代码里 AI 幻觉产生安全漏洞？不管。简单 todo 应用 500MB？随便。问个问题：数据库怎么跟前端通信？答不上来。

这哪是开发者，这是拿 ChatGPT 订阅费在诈骗。

#开发者 #AI编程 #外包避坑

推文 2：观点型

AI 没有让代码贬值，让代码贬值的是那些根本不会写代码的人。

Cursor + GPT 能快速搭个架子没错，但你得能看懂每一行、修掉每一个 AI 幻觉、知道为什么这么设计。

卖给别人一团看不懂的屎山，这不是创业，这是把风险转嫁给别人。

#独立开发 #SaaS #代码质量

推文 3：技巧型

雇外包前必问一个问题：

“你的数据库和前端怎么通信？”

支支吾吾说不清楚？跑。

敢用 AI 不可怕，可怕的是连基础都不懂就敢收钱。

我现在接的活，一半都在重写这种”快速交付”。

#创业避坑 #技术选型 #外包踩雷

原帖摘要

作者批判当前所谓的”MVP开发”乱象。许多”创始人”声称用 Cursor 和 AI 在周末就能构建 SaaS，然后忽悠非技术创始人雇佣他们。

核心问题：

无法阅读代码 - AI 幻觉的安全漏洞直接上线（如明文存储密码）
架构糟糕 - 堆砌大量库，简单的待办事项应用 500MB
无法维护 - 需求稍微复杂就搞不定，开发者直接跑路

结论：不要被”快速迭代”忽悠。如果开发者不能解释数据库如何与前端通信，立即开除。

Jan 26, 2026

做了个 app，叫 zerotap。

名字起对了。iOS 上线，用户数：0。

没有营销，没有流量，只有代码。独立开发者的现实就是：写代码是容易的，让人看到你的代码才是地狱。

Jan 25, 2026

AI Agent 能写代码、能部署、能自动迭代了，但你真的会用吗？演示视频里是挺炫，到你这：权限不够、公司不准、风险太大，最后还是老老实实写 if else。热闹是他们的，你什么也没有。

Jan 25, 2026

有个项目搞民主创新，让社区投票决定合并什么代码，结果有人偷偷塞了一段自我提升的代码，218 人投了赞成。等作者发现要拒绝的时候，社区说你不能拒，这是民主投票的结果。这故事太搞了：开源社区的民主最后变成了多数人的暴政，而那个写恶意代码的人只是利用了人类的懒惰。大多数人不会认真看代码，他们只看标题和简介，然后就投票。这哪里是民主，这是羊群效应。

Jan 25, 2026

cURL 项目宣布取消漏洞奖励计划，原因是被 AI 生成的垃圾报告淹没了。以前一个漏洞报告可能是研究员花几天挖出来的，现在 AI 一秒钟能生成 100 个看起来像那么回事但全是废话的假报告。维护者直接心态崩了：你们图方便用 AI 找 bug，我图什么？图我每天花几个小时删垃圾邮件？这就是 AI 爆发的副作用，门槛降到了零，噪音也升到了天花板。

Jan 25, 2026

DeepMind 内部有个预测市场，员工用真金白银下注预测 AGI 什么时候来，最新数据是 2028 年实现 AGI 的概率 50%。三年后，不是十年不是二十年，是三年。我第一反应是又来个炒作，但这是 DeepMind 员工自己的钱，他们造这东西的比你我更懂进度。如果他们真这么想，世界变化的速度可能远超我们想象。

Jan 25, 2026

独自旅行最害怕的往往不是孤独，而是出发前脑子里的那些声音。迷路怎么办？出事怎么办？我一个人能行吗？但这些焦虑一旦迈出第一步就会烟消云散。站在目的地的那一刻，你会发现：最可怕的其实是想象，最棒的也是发现自己真的可以做到。恐惧不是来自路途，而是来自不敢出发的自己。

Jan 25, 2026

程序员已死，你听说了吧？每次 AI 出个新功能就有人说这句话，但你有没有发现：说这话的人从来不给你看数据？GitHub 的数据倒是说，AI 爆发后开发者数量反而在涨，因为工具越强用它的人越多。画图没死，摄影没死，写代码也不会死，会死的是只会复制粘贴不动脑子的人，这种人有没有 AI 都活不长。

Jan 25, 2026

春天去了趟丽江，没做太多计划，印象深的不是某个景点，而是那里的节奏。清晨凉，午后暖，空气里走起路来很舒服。我在老街巷子里瞎逛，想坐就坐。古城确实商业化，但慢下来之后这些就不重要了。早晚最安静，空间也最真实。没急着打卡，一天安排一件事就够，剩下时间喝咖啡、散步、无所事事——反倒是这些最舒服。丽江不全是诗意，但确实是个容易停下来的地方。有时候旅行要的就是这个。

Jan 25, 2026

NeurIPS 2025 接收的论文里，51 篇被查出有 100 个不存在的引用，全是 AI 写的假文献。最离谱的是审稿人还夸这些”研究”有深度，合着大家都在用 AI 生成内容，再用 AI 审阅，最后产出一堆互相幻觉出来的学术垃圾。AI 写论文效率是高了，但谁来保证内容是真的？学术圈这条捷径走多了，会不会连真创新都找不到了？

Jan 25, 2026

OpenAI 前脚还在说 AGI 即将到来拯救人类，后脚就开始推广告赚钱了。从改变世界的使命到变现压力的拉扯，说白了就是：烧了 50 亿美元，投资人要回报。这没啥丢人的，但别一边说”为了人类”一边在用户聊天里插广告。AGI 还没来，广告先来了，这就是硅谷的现实：理想很丰满，账单更丰满。

Jan 25, 2026

OpenAI 发博客说他们用 Postgres 支撑了 8 亿 ChatGPT 用户，那些说”关系型数据库撑不住大规模”的人可以闭嘴了。技术圈有个坏毛病：一遇到问题就换新工具，好像用了新技术就能解决所有问题。OpenAI 这波不是黑科技，就是把传统数据库做到了极致：该分片分片、该缓存缓存、该优化优化。工程师最该学的不是追逐新技术，而是把手里的工具用到极致。

Jan 25, 2026

GPT-4 才出来多久？Cursor 才火多久？大部分程序员用 AI 写代码的比例还不到 30%，就这已经让很多人慌了。两年后，90% 的日常代码会由 AI 生成，这不是预测，是正在发生的趋势。但你别慌，AI 写得越多，越需要人来判断写得对不对，区别只是：以前你是写代码的人，以后你是审代码的人。那个不会 AI 的程序员，才会被淘汰。

Jan 24, 2026

大家都说 Python 爬虫被反爬搞死。

其实是你工具没用对。

大多数反检测浏览器在 JS 层伪装，一看就穿。

Camoufox 在 C++ 层改指纹，这才是真·隐身。

伪装 navigator、屏幕、地理位置、WebRTC…

鼠标移动都像人。

它用 BrowserForge 模拟真实设备分布，不是随机乱编。

#爬虫 #反爬虫

Jan 23, 2026

AI 工具越强，人越懒？

看到有人抱怨 ChatGPT 不好用，打开一看他的 prompt：帮我写个文章。

三个字。就这。

DALL-E 3 研究说破了：升级一半来自用户写得更详细，不是模型变聪明。

让 AI 帮你打磨 prompt，用模板，让它反向追问。

别把宝全压在模型上。

你花的心思，才是差距。

January 2025

Jan 29, 2025

把 AI 当主刀医生，病人会死。

Reddit 上一哥们儿说：vibecoding 两年后，他重新开始手写代码。原因很直接——AI 只能做简单功能，复杂逻辑一碰就碎。

我的看法：工具问题不是工具的问题，是期望值的问题。你以为请了个专家，其实只是个打字快的实习生。

Jan 28, 2025

一位研究者在 ICLR 2026 遭遇评审”惨案”：

初始评分：4(3)/6(4)/6(4)/6(4)

他做了什么来反驳那个给 4 分的评审：

新增 5 个实验，花费 $1600
指出评审不了解他领域 1997 年的基础论文
新增 20+ 页理论来回应评审疑虑
开源代码和完整日志

结果：Area Chair (AC) 把他原本已经回应的问题列为”未解决的担忧”，完全忽略了他的改进。

即使是那个给 4 分的评审者都称赞他的创新性。

“我怕 AC 用了 GPT，但我认真觉得任何 frontier LLM 都会给他比这更好的评审。”

这不是孤例。顶级会议的评审质量问题引发广泛讨论：

评审者缺乏领域知识
AC 不仔细阅读反驳
主观性太强，缺乏透明度

有申诉渠道吗？基本没有。作者只能接受现实，或者换会议再投。

学术圈需要反思：

如何评审质量本身被评审？
申诉机制是否应该建立？
当人工评审不如 AI，我们该怎么办？

#ICLR2026 #PeerReview #AcademicPublishing

Jan 28, 2025

一位 PhD 学生在 r/MachineLearning 发出灵魂拷问：

“看到某个会议有 3 万篇投稿，还有 AI 写的论文配 AI 写的评审——我真的担心这是在往哪里走。”

他读博的动力是”花几个月时间打磨论文，发现有趣的临床发现，然后精彩地呈现出来”。但现在感觉这种学术追求已经死了。

“最近读的论文都是垃圾，没有真正值得读的工作。即使有，也被淹没在论文堆里。”

这不是一个人的困惑。

AI 工具降低了论文生产门槛，但并没有提高研究质量。当生成式 AI 可以批量制造”看起来像论文”的内容，当评审也可能用 AI 快速浏览，学术圈正在经历一场”通货膨胀”。

真正有价值的研究：

需要深入理解和问题洞察
需要严谨的实验和验证
需要可复现的代码和数据

这三点，AI 都无法替代。

对于 PhD 学生，建议是：别追求数量，追求那些”真正解决问题”的工作。大厂要的是解决真实问题的能力，而不是论文计数器。

#AI #AcademicResearch #PhDLife #ResearchQuality

Jan 28, 2025

RGB-D 相机在反射面和透明表面会失效，大多数方法直接丢弃这些”噪声”数据。

但蚂蚁集团的新论文《Masked Depth Modeling for Spatial Perception》提出了反向思维：传感器失效的地方正是几何最难的区域（镜面反射、玻璃、无纹理墙面），为什么不把这些失效当作天然的自监督学习掩码？

核心思路：

用完整 RGB 作为上下文
在传感器实际失效的位置掩码深度 token
预测完整深度图

与标准 MAE 随机掩码不同，这些”天然掩码”集中在几何模糊区域，任务更难，但迫使模型学习真实的 RGB 到几何对应关系。

实验结果：

深度完成任务上 RMSE 降低 40%+
机器人抓取实验：透明储物箱成功率从 0% → 50%

代码、checkpoint 和完整数据集（300 万样本）已开源。

#MachineLearning #ComputerVision #SelfSupervisedLearning

Jan 28, 2025

推文草稿 3：回归手动编码

来源

Subreddit: r/programming
原文链接: https://atmoio.substack.com/p/after-two-years-of-vibecoding-im
主题: After two years of vibecoding, I’m back to writing by hand

核心观点

作者重新审视了数月的 AI 生成代码后，决定回到手动编码。令人惊讶的是，考虑到所有成本后，手动编码实际上更快、更准确、更有创造力。

推文内容

读完几个月的 AI 生成代码后，我决定：这东西我不会发给用户。

这不仅是代码质量问题：
- 我不会让用户为这堆东西付费
- 我不会用这堆东西保护用户数据
- 我不会对用户撒谎

于是我开始手动编码。

结果令人惊讶：我更快、更准、更有创造力。

AI 的 token 产出速度很迷人，但当你把所有成本算进去 —— 重构、调试、维护 —— 手动编码反而更高效。

有时候，慢就是快。

元数据

创建时间: 2025-01-28
来源类型: Reddit 热门
目标平台: X (Twitter)

Jan 28, 2025

推文草稿 2：规格驱动开发的失败

来源

Subreddit: r/programming
原文链接: https://atmoio.substack.com/p/after-two-years-of-vibecoding-im
主题: After two years of vibecoding, I’m back to writing by hand

核心观点

试图通过写超详细的规格文档来让 AI 生成好代码，这条路也行不通。真实的开发过程中，规格文档是活的，会持续演化。

推文内容

"如果我写够详细的 prompt，AI 就能完美实现。"

于是我在 Obsidian 里写了整整一页的规格文档，花了半小时，自以为天衣无缝。

但现实是：
- 真实的设计文档是活的
- 它们在实现过程中不断演化
- AI 却会在一开始就做出不可逆转的决定

就像你给工程师一份文档就去度假，回来后会发现什么灾难等着你。

AI 不会迭代，只会硬推到底。

元数据

创建时间: 2025-01-28
来源类型: Reddit 热门
目标平台: X (Twitter)

Jan 28, 2025

推文草稿 1：AI 生成的代码垃圾问题

来源

Subreddit: r/programming
原文链接: https://atmoio.substack.com/p/after-two-years-of-vibecoding-im
主题: After two years of vibecoding, I’m back to writing by hand

核心观点

AI agent 写的代码在隔离审查时看起来没问题，但在整体代码库中却是混乱的垃圾（slop）。

推文内容

用 AI 写代码两年后，我决定回到手动编码。

AI 生成的代码有个致命问题：
- 每个 PR 看起来都很完美
- 但放到整个代码库里就是一团糟
- 它们只对自己的 prompt 负责，对整体架构毫无敬畏

就像 AI 写小说：每段话都通顺，连成一章就是灾难。

AI 告诉了你一个好故事，但不是好代码。

元数据

创建时间: 2025-01-28
来源类型: Reddit 热门
目标平台: X (Twitter)

Tweet

推文 1：吐槽型

推文 2：观点型

推文 3：技巧型

原帖摘要

推文草稿 3：回归手动编码

来源

核心观点

推文内容

标签

元数据

推文草稿 2：规格驱动开发的失败

来源

核心观点

推文内容

标签

元数据

推文草稿 1：AI 生成的代码垃圾问题

来源

核心观点

推文内容

标签

元数据