开yun体育网谷歌也有在使用蒸馏时候进行优化我查了好多贵府-开云平台皇马赞助商(中国)官方入口

发布日期：2025-08-04 12:06 点击次数：116

最近DeepSeek（深度求索）竟然十分火，DeepSeek在24年12月26日推出对标GPT4o的V3之后，用户数就开动大批增长，在1月20日发布对标GPT-o1的R1之后开动赶紧爆火，DeepSeek在好意思国下载排行从1月22日的201名，到1月27日赶紧登顶第别称；散伙1月30日，DeepSeek依然在168个国度位居下载榜第别称了图片 DeepSeek的爆火还一度带崩好意思股芯片股，英伟达股票在1月28日着落17%，29日反弹7%之后30日又着落4%（天然英伟达说股票着落和Deep...

图片

DeepSeek的爆火还一度带崩好意思股芯片股，英伟达股票在1月28日着落17%，29日反弹7%之后30日又着落4%（天然英伟达说股票着落和DeepSeek联系不大）

手脚一个神气财经的博主，尝试的下载了几个对于DeepSeek的研报，想苟简望望DeepSeek的好坏之处，成果发现略略真切少许就看不懂了，一些最基本的名词还需要查，是以只可捡要点苟简说

证实20250122-财通证券-DeepSeek-R1：强化学习+常识蒸馏，并列o1的先容DeepSeek主要的优点有三个：

1、DeepSeek大范畴强化学习，成为首个不需要监督微调，皆备依赖强化学习历练的谈话大模子

要看懂这句话需要补充一些基础常识。领先大模子的历练经由主要分为两个阶段：预历练和后历练。预历练是通过大批数据的反复输入，先建立一个比拟基础的大模子，这一阶段会有大批资金耗尽。基础的大模子到不错使用的大模子中间还需要后历练的打磨，比如不错使用另一个基础大模子效法东说念主类进行反复发问，或者是OpenAI使用的东说念主类反映强化学习（RLHF），苟简说即是东说念主工对大模子产生的谜底进行打分，以便不绝优化谜底

以上说到的需要借助东说念主工打分象征或者东说念主工发问的面容都不错称作“监督”，然则DeepSeek通过群组相对战略优化（GRPO）构建“智能体群体间的相对上风评估机制”，苟简说即是不使用任何“监督”而使用皆备自动化的强化学习要领取代了监督微妥洽RLHF，使用机器对大模子的谜底进行打分

2、DeepSeek使用常识蒸馏时候把R1模子内部的推理才调传递给其他模子

蒸馏时候早在2015年就被建议了，在Transformer模子之前，谷歌也有在使用蒸馏时候进行优化

我查了好多贵府，对常识蒸馏时候的说法和例如存在一定的进出，我贯穿的常识蒸馏好像道理是：先有一个进修模子，这个模子依然比拟老成，不错解答各式复杂问题；还有一个学生模子，比拟小，使用它去对进修模子进行学习（蒸馏），但并不是苟简的“抄谜底”。比如判断一个图片内部的物体，进修模子判断出来这是一个自行车，学生模子不是径直象征这是个自行车（这种象征被称为硬象征），而是参考进修模子的“念念考面容”，进行软象征：这个图片95%是自行车，4%是电动车，1%是摩托车，趁便还学习了自行车和其他的车的相通性。这么的平允是小模子完成了大模子的任务，然则所需要的资源就少了好多，速率还更快

3、低廉，如故低廉

研报原文径直粘过来：

DeepSeekR1 API办事订价为每百万输入tokens1元（缓存射中）/4元（缓存未射中），每百万输出tokens16元，而OpenAI o1模子API办事订价为每百万输入tokens 55元（缓存射中）/110元（缓存未射中），每百万输出tokens是438元

图片

苟简讲授一下上头这段话内部的词：

API办事是运用要领编程接口办事,是不同软件系统之间的趋承桥梁，比如在京东上头购物但使用微信进行付款，API把你的建议信息传递给了商家完成了往返，其实这个词不懂也无所谓，不太影响阅读

Token是天然谈话惩办（NLP）中的基本单元，代表文本或数据的最小单元，苟简贯穿即是个单元

缓存不错苟简贯穿成是用户和办事器中间的一部分资源的暂存站，要是需要的信息在缓存内部，即是“缓存射中”，这么就无须去办事器内部找信息了，速率就会快，也就低廉；要是缓存内部莫得，也即是“缓存未射中”，那就获取办事器内部找了，那就慢少许，也就贵点

DeepSeek原本只想苟简说说，但如实内部好多东西都不懂，写着写着就多了，要是有写的分袂的地方请给我留言，十分感谢！

说完DeepSeek详情需要提到它的母公司：幻方量化

幻方量化由梁文锋于2015年在杭州成立。2016年，幻方的第一个由深度学习算法模子生成的股票仓位上线实盘往返，使用GPU进行打算。2017年，幻方的通盘投资战略都罢了AI化。2018年建立以 AI 为公司的主要发展地方，况且获得了私募的金牛奖。2019年，幻方自主研发了“萤火一号”历练平台，况且幻方私募范畴依然达到百亿。2020年，“萤火一号”认真插足运作。2021年，幻方插足10亿元开发“萤火二号”。2023年，梁文锋通知幻清廉式进犯通用东说念主工智能鸿沟，创办了DeepSeek

（参考材料:不雅察者网：DeepSeek独创东说念主，一个“时候期望目的者”及幻方官网https://www.high-flyer.cn/history）

终末聊聊幻方的资本行：量化投资

量化投资苟简来说即是用AI模子来炒股，大部分都莫得基金司理主动选股，通盘的买入卖出教导都是靠电脑自动进行，投资时间AI在不绝地分析-判断-往返-分析-判断-往返，往返频率越过高

先苟简说一下我对量化的作风，我合计量化投资是一种很好的战略：

领先，从一些头部公司的功绩来看这种战略是灵验的，能赢利的即是恋战略；其次，国内如故以散户为主，在不绝向专科投资者为主的市集进化的经由中，量化亦然很好的鼓励要素；终末，好多东说念主一直在说量化影响了A股的生态，把好多着落弃世的原因归集在量化投资上，我认为量化投资因为其战略的迥殊性，可能还会波及到对冲等战略，是以详情会对A股有一定影响，然则影响详情莫得那么大，而且韭菜就算不被量化噶，还会被各式各种的其他东西列队等着噶

图片

终末，说说量化投资的具体战略，咱们个东说念主去遴选股票详情是有一定的依据，咱们可能会看K线、PE、PB、往返量、公司季报，以至是股票的名字（川大智胜

图片

），那么量化投资详情是东说念主给AI模子竖立了好多对股票的考量参数（因子），通过这些因子的详细考量，来判断这支股票飞腾的的概率大如故着落的概率大，要飞腾就买入，要着落就卖出

有可能波及到的因子，在这里举几个例子，便捷全球贯穿：

1、价值因子：市盈率（PE）、市净率（PB）、股息收益率

2、动量因子：往日12个月收益率、相对强弱指数

3、范畴因子：市值、运动市值

4、情愫因子：投资者情愫指数、新闻情愫分析

5、时候因子：移动平均线、布林带

看完这些例子，全球好像就明晰了，量化投资其实即是AI把咱们东说念主能判断的通盘选股要素一说念推敲到了，按照束缚地重叠奉行，束缚的优化模子，来增强选股的告捷率，但其实因子远远不啻这些，而且内部因子的不绝优化远比咱们设想的要贫穷多

参考研报20250127-民生证券-量化专题答谢：深度学习若何自适合市集景象以晋升模子持重性？内部的模子给全球截几个图望望