核心方向

技能维度评估

基于 0-10 分的自我评估展示能力分布

评分说明:0-3 较低,4-7 中等,8-10 优秀

能力(8):能力方面,本人掌握的知识较多且知识面广,擅长新时代的新兴技术,能应用到技术生产的活动上。但是资历尚浅,需要更多的时间来提升自我能力。

沟通(9):沟通方面,本人沟通能力强,性格开朗且愿意开口与人交流建立关系,行事有准则但不僵硬,富有同理心但也敢说不。

合作(8):合作方面,本人擅长跨部门合作交流,有相关的实习经历和专业经历,擅长编排调度和规划管理。但是如果是接触全新的环境,对于部门之间的协同效益需要时间了解和适应。

设计(6):设计方面,本人较为普通,具有基本的审美能力,不过在擅长的方面具有独到的理解。

创新(7):创新方面,本人思维敏捷,擅长多视角分析和类比推理,逻辑清晰,时常以全新的视角看待身边的事物。

学习(10):学习方面,本人学习能力强,自学web语言耗时两周创建个人网站,一年时间自学日语达到N1水平,对于新事物的接受能力强,乐于学习新知识和新技术。

能力展示

视频剪辑与视听分析
我从2014年开始接触视频制作,通过学校组织的视频剪辑大赛开始参与视频制作的全流程,包括拟定主题、编写剧本、制作分镜、确认拍摄地点、统筹人员、准备器材、协调时间以及实地拍摄等等一系列拍摄流程,最后也负责了视频的全部剪辑工作。当时没有人带领我们,我也不知道该如何去制作视频,只是从网上找到了模棱两可的教程,然后就叫上了几个伙伴,我告诉他们这次比赛我们一定可以得奖,不会的部分我会自学再教给你们的,所以来吧。于是就这么懵懵懂懂地开始了人生的第一次视频制作。

刚开始真的遇到了很多困难——首当其冲的就是剧本该怎么写?我们要拟定一个怎样的主题和怎样的主旨?我一个人实在是想不到有什么很好的主意。这个时候有个女生说要不写个喜欢吃辣条的男孩吃到拉肚子,送进了医院之后痛改前非并且开始健康饮食的故事。很单纯、很正向,所以我很喜欢,并且把写剧本的任务郑重地交付给了这个女生。由于我们没有专业的拍摄器材,只能使用手机拍摄,而学校内是不允许携带手机的,所以我在根据剧本内容决定好拍摄地点之后跑去找了年级主任,告诉对方我们的任务、拍摄地点和时间,希望他可以在现场允许我们使用手机进行拍摄;拍摄的地点还涉及了校门口与门口的商店,于是我也协调了门卫以及商店的老板希望他们能一起客串进视频,还好大家都很配合,虽然拍摄的过程“演员”的表现略显青涩,但是总的来说可以算是非常顺利了。

每次拍摄前,由于道具和场地限制,我都要根据现场的实际情况来制作分镜,一开始我还想着有个俯拍的视角再拉远,但是想起来我们没有无人机,学校里面也借不到,很多想法只好作罢。我的画画实在称不上好看,只能在好几张草稿纸上画不同角度的火柴人,再指着火柴人告诉“演员”和“摄影师”该怎么拍。当时我没有分镜的知识,对于什么动接动、静接静、镜头的推拉摇移还有什么转场的技巧一概不知,所以效果很难称得上好,只能说以自己的直觉来安排分镜。

在拍摄结束后,我们得到了大几十张的视频片段,但是该怎么合在一起呢?由于大家都不知道剪辑是什么,该怎么做,所以我履行了之前的承诺,开始从头自学视频剪辑。其实这部分的难度对我来说是不高的,因为我暂时不需要再去协调其他的伙伴,只需要专注于自身,以及视频制作的目标就可以了。所以我从网上搜索“视频剪辑要怎么做”就一头扎进了剪辑的过程里。从下载PR、到导入视频、制作视频库、轨道编辑、还有可以自由使用PR自带的视频音频特效。我大吃一惊,科技真发达,这些看起来复杂的流程居然都可以通过可视化的面板来完成,PR真是个好软件(制作字幕的时候就不这么想了)。那时是我第一次接触视频剪辑,磕磕绊绊的也算是完成了。

我将成品给伙伴们逐一过目,大家都很兴奋,居然真的能从无到有,一步一步做出一个完整的视频。我感悟颇深,原来只要肯做就不是无法做到,原来只靠着自己不够的部分可以通过依靠其他人完成。即使最后视频只拿到一个二等奖让我很沮丧,但我从当时的经历里面学到了许多,同时也深知自己能力上依旧还有很多不足的地方,特别是分镜的知识方面,这让我在之后的日子里不断地学习视听技巧,就是为了补全自己的短板,也算是一点小小的梦想。

——————

直到今天,视频剪辑已经成为了我的习惯,我会断断续续自己录一些游戏片段,剪辑后发到B站。大学期间,我为社团制作了2023年2024年的两期招新视频,为了达到更好的视听效果,除了使用PR自带的特效以外,我自学了AE做了额外的特效,还自学了AU对声音和音乐进行混音、环绕音的处理;为了有个更吸引人的封面,我也自学了PS手动设计排版和字体等等。

2023vd
2024vd
另外,多年的视听语言学习也让我想应用到实际的视频当中,但是一个人没有什么制作视频的机会,直到前一段时间我看到了游戏“鸣潮”的角色PV动画视频,质量非常之高令人动容,我意识到这可能是个难得的机会让更多人理解这个视频优秀之处,所以自己撰写了将近8k字的文案并制作解析视频,视频详情可以在网站最下面的Communication找到B站图标进入我的主界面查看。

2024vd
proj1
proj2
自从做了这个视频,我就感觉自己有了一点目标和所谓的使命感,做视频不再是一个苦差累活,而是能给自己带来愉悦,或者能给别人带来知识和满足的事情,碰到好的作品,我会想着写写稿子找点灵感,每次发完作品我会想着是否有什么可以从中优化的地方,比如封面的字体不够大,不够吸引人注意;比如标题起得让人也没什么兴趣点进来看,该怎么让人能愿意马上点进来;比如点进视频的人很快就退出去了,是不是我视频开头不够引人入胜?我在闲暇之余或者做视频的途中就会开始不断思考该怎么进行优化,以此获得更好的观众反响……后面我又制作了“鸣潮”3.1版本的主线过场动画“旅途愉快”的视听语言赏析,优秀的剧情和音乐确实是令人难以拒绝。
proj3
目前刚开始制作鸣潮3.3版本的主线过场动画“人类的心脏”的视听语言赏析视频。在“鸣潮”这个游戏第三个视频里,我吸取了前几个视频的教训和经验,抛弃了没有新意的黑底白字,换了一些更便于观众理解的排版、字体、可视化构图示意进行分析,还可以更大程度上利用画幅的空间,希望最终的成品能有个更好的效果。
proj5为什么我老是揪着鸣潮这个游戏做视频呢?因为这个游戏确实是我日常接触的游戏中剧情和演出最优秀的那一档,给我带来的感动和激动让我愿意为此创造作品,玩家的受众足够多,而过场动画的时长不算长,非常适合我进行拉片程度的分析;长篇的影视作品的赏析成本太高,我个人无法承受,但如果又是对影视作品进行浅尝辄止的理解,那我觉得反而是对制作方的不尊重,所以我没有选择对长篇影视作品进行分析,不过以后我也可以考虑选择一些精彩的片段进行分析,这样工作量也不会特别大。
人工智能生成内容(AIGC)
人工智能生成内容(Artificial Intelligence Generated Content),是通过AI技术自动生成文本、图像、音频、视频等内容的技术体系。我从理论逻辑部分开始认识AI伦理边界和应用场景,到使用线上AI生成一般文本代码或者回答问题(比如豆包、KIMI和Deepseek),到使用市面上的各种垂直化AI智能体(比如WPS的灵犀3.0,这种针对办公场景进行优化的AI展现了高度的专业性,生成PPT/WORD/EXCEL已经是易如反掌,我经常使用WPS AI来编辑图片和生成PPT框架)。

人工智能生成——视频
核心能力:熟练使用Sora、即梦、Wan、Google Gemini等主流AIGC视频生成工具,掌握文生视频、图生视频、视频风格化、镜头运镜与画面一致性控制,可独立完成短视频、动态视觉、剧情分镜等内容的全流程 AI 创作。

一开始我学着自己手动通过简单的提示词+Wan生成短视频,也尝试了使用即梦、可灵、甚至是刚发布的Seedance2.0等等来生成短视频。
Wan2.6×克里斯汀娜(点击图片查看视频)chris
即梦×我自己(点击图片查看视频)即梦×我自己
随着使用次数的增多,后面仔细想想,如果只是给个图片一段话丢给AI生成,那未免也太可惜了,强大的引擎需要有好的框架和方向盘来操控,通过AI生成角色的三视图,以达到在关键词中赋予角色动作、神态等等效果。
three side

Dance!(点击图片查看视频)
(!注意声音!)Dance

结合我自己的经历,我还写了一份小剧本以及分镜稿,生成了一个一分半多的小短剧。
室友的房间(点击图片查看视频)室友的房间

自从Seedance的2.0版本发布后,AI视频就如同雨后春笋一般冒出来,Seedance作为大语言模型为基础的视频模型,可以最大程度上理解人类的自然语言,而不需要使用纯正而严格的提示词格式,比如说Markdown。也就是说只需要通过一句很随意的话丢给Seedance就可以生成理解之后生成的视频:帮我生成两个人打架的视频。画面的一致性也很高,更甚至是可以自动安排分镜,这在之前的视频模型角度来看是无法想象的。
但是这仍不代表严格的提示词工程失去了其意义,Seedance作为强大的模型,想要发挥最大的能力,必须要通过一定的提示词公式,提供足够的参考图,才能生成高度一致,逻辑合理,符合剧本和分镜稿的视频。毕竟不可能全程都让AI随意发挥,AI总归只能算是工具,人类要把思考的过程交给自己。
比如说下面这个视频,如果只是通过“帮我生成鸣潮角色达妮娅和爱弥斯出场炫技的联动宣传视频”这样的一句话是很难达到满意的效果的,所以需要我们人工对视频的风格(梦幻?写实?)、画面、画质(4k?8k?)、视频节奏、分镜语言(推拉摇移跟升降环、慢动作、特写等)、音效或BGM、氛围(不安?热情?)、色调(冷暖)等等参数进行约束,在符合Seedance识别语法的框架内根据需求定制视频内容,这远比一句话带来的效果好得多得多。此外,还需要给AI上传各种素材和参考图,这部分内容也需要用心准备,以AI的视频生成逻辑来说,提供参考图片和视频会比纯文字更好理解,效果也更好。

脑洞大开做了达妮娅和爱弥斯所谓的“联动”广告宣传视频:时间短、特效多、镜头变化快,能很大程度上吸引路人点进来看,就是这个内容做完再看一遍还是感觉忍俊不禁。


"游戏联动"广告宣传(点击图片查看视频)wuwa1

闲着无聊去跑了一下之前网上很火的终末地女管企鹅的模型,做了个治愈向的AI短片,参考了新海诚的电影风格,非常权威啊,夜空中的标志性流星应该懂的都懂了。可惜的是中途一段漏固定画面比例了,导致拼接的时候出现了一点画面闪动,好在画风是固定一致的。

咕咕嘎嘎的小企鹅(点击图片查看视频)guga1

人工智能生成——图像
Stable Diffusion
核心能力:提示词工程、模型/插件选型、LoRA 训练与融合、ControlNet 结构控制、高清修复、批量出图与风格统一。进行风格化定制、细节优化、批量生产,大幅提升视觉内容制作效率。能根据需求快速生成人物、场景、插画、封面、UI 素材等,具备从需求到成品的完整 AI 视觉产出能力。

sd-make
为什么选择Stable Diffusion?我认为在AI绘画的入门阶段,能随心所欲地创造作品是一件能激发个人兴趣的事情,即使这是所谓“低人一等的AI图像”。开源的Stable Diffusion相比闭源的Midjourney在这方面更有优势(也更便宜),在生成了奇奇怪怪的图像后,我会想该怎样才能探索出一条能生成正常人体、自然表情、各种不同风格画像的道路,我希望、我想做到——而不是生成一些扭在一起的手指,长着四条腿的人。好在Stable Diffusion确实有足够的素质,高度的定制化可以让我使用LoRA模型对Checkpoint大模型和图像进行微调、用ControlNet进行细节处理,比如哪个部位更拟合现实,头再小一点之类的。这种自由地创造带来的爽感远非Midjourney输入关键词生成这种模式可比拟的,即使我不得不承认Midjourney的闭源模型已经十分成熟和优秀(主要是太贵)。
AI-PIC1
也可以进行需求定制化的AI风格,比如宣传海报、UI素材、各种风格的背景等等。

chara2
sce
chara3
用LoRA和ControlNet对风格进行强化,同时优化细节、微调色块风格。
AI-Change
图像与视频本就一体,想要以全链路落地AI作品,必定需要这两个方面的技术应用,随着AI日新月异的发展,就连以往我们不敢想象的画面也会跟随AI的发展一同出现。不断地进步,跟上时代的浪潮依然是这个时代的我们必须要做到的首要之事。

ComfyUI
核心能力:文生图/视频、图生图/视频、画风切换、高清修复和图像放大、节点式工作流搭建、自定义管线组合、精细化生成控制,通过模块化节点组合实现Stable Diffusion全链路可控生成,多模型插件协同、ControlNet精准结构约束与LoRA权重动态调配,能根据业务需求,快速搭建从需求拆解到成品输出的完整工作流。

WebUI很适合新手上手,因为界面简单插件齐全便于理解,但是在我使用了WebUI一段时间之后依旧发现了一些问题,首先是每个模型的参数配置没法单独保存,意味着每次我重新打开WebUI或者切换大模型都需要重新设置采样器调度器、CFG、STEP和噪点等等参数,甚至是Hires高清修复也需要重新加载和配置,实在是太过麻烦。到了这一步,使用ComfyUI已经是大势所趋,不仅如此,ComfyUI的节点工作流模式才意味着AI文生图、文生视频、图生图、图生视频的流程可以应用于商业领域,这是AI发展的一大步。在批量生图方面,使用ComfyUI可以极大程度上节省资源提高效率。
文生图-用了较多提示词调整生图细节,使用了面部检测重绘+高清放大。为了方便使用,手搓了工作流和提示词规范的SOP。
comf2
图生图-画风变换(Anime 2D → 2.5D Anime)转换2.5次元风格的图片,对于这类介于真实和动漫之间的风格,重点在于脸部,色彩画风要偏向动漫,但脸部结构需要写实,所以我增加了面部检测重绘模型防止出现扭曲,可以用提示词调整生图细节。
comf1
图生图-画风变换(Anime 2 Real)
实在是没想到,动漫转真人的细节比想象中多的太多了,目前来说阿里的ZIB/ZIT大概是生成真人的最优解,人物的质感相当高级,吹弹可破的皮肤和细腻的光影,还有衣服材质的真实感,真是令人震撼不已,唯一不太方便的地方在于,ZIB/ZIT必须要使用qwen的大语言模型,我使用的是开源的qwen3.4b-vl,模型是Moody系列,如果不使用大语言模型的图像反推功能,似乎就很难实现生图。ZIB/ZIT必须要有相当严格和齐全的提示词进行限制,否则出来的图像真的是鬼画符,真是给我看的吓一跳。但是流程正确的话就没问题,ZIB/ZIT本身的质量相当之高,堪称完美。
这套管线花费了我非常多的时间进行搭建和调整,完成之后可以做到无脑一键生成,另外这套管线流程我还重新搭建了面部检测重绘的Face Detailer,只是有点嫌弃效率太低,没有启用(其实还是ZIT太厉害了完全不需要太多检测修改)。当然大概率一次没法生成完美的真人图片,如果真有需要到时候再搭建一个局部重绘的流程就行了,这倒是很简单。
comf3
comf4
文生图/图生图-图像放大/细节重绘
通过降噪强度来调整细节重绘的幅度,虽然根据模型的不同需要调整数值,与原图太过拟合会导致线条撕裂。图像放大本质就是通过抽象原图进行重绘,二次放大就是将图进行分步放大处理后合并,但是也需要考虑模型和采样器的匹配。
comf5
comf6
通用大模型开发
通用大模型是具有通用认知能力的AI系统,比如GPT、通义千问/万相、Llama等通用大语言模型。如果说AIGC是应用层面上的概念,那么通用大模型就是实践概念的工具。

本地大模型部署
随着AI使用的次数增多,我发现AI带来的便利确实是无与伦比的,但是考虑到隐私问题以及便利性,我希望能定制一个独属于我自己的AI助手,先不提让AI通过Agent帮我主动完成一些日常事务,最起码能代替一些基础文本和图像生成的AI来跟我对话,或者玩文字游戏。我希望这个AI能记住我的电脑配置、我的个人喜好、现在的时间、我昨天跟它聊了什么等等各种各样的事情,在这种高度定制化的同时需要保证足够隐私性的情况下,我认为在本地部署大模型是最好的选择,以下是通过ollama初次在本地部署Qwen3-vl:8b版本通用模型时在电脑cmd中对话的截图,不需要连接网络就可以对话,可以看到思考过程和输出结果:
model1
考虑到cmd中运行模型太过麻烦,如果有个前端工具来整合功能会更便捷。在寻找合适的工具的过程中,我对Cherry Studio的模块化设计和定制化扩展的思路非常认可,所以我选择了国产开源的Cherry Studio作为可视化前端工具。AI本地运行/思考中会消耗大量电脑算力,所以GPU处于基本满载的状态:
model3
model4
在达成我的目标过程中,这只是相当于起步阶段,接下来还要解决很多问题:本地部署联网搜索的功能、长文本大量token的输入输出以及长期记忆等等功能,都需要通过MCP之类的工具来实现,所以我选择用最新的langchain来解决问题。

待续……
虚幻引擎UE5
到底是哪个男孩心中没有一个自己做游戏的梦想呢?反正肯定不是我。其实很早之前我就接触过Maya和Blender这两款建模软件,但是后面由于学习和家庭没有时间,另外也没有一台比较好的电脑支持我进行探索,所以那时候我不得不放弃,只能之后再做打算。但是大三之后靠着实习和打工的薪水给自己配了台还算过得去的台式机,再加上现在学习的成本也不高,我自然是想着闲暇之时能再开始探索这门一直向往的技术。

动画演出分镜
作为视频制作出身的人,我更喜欢先从自己的舒适区下手,况且如果是从搓人物建模开始学习就没有必要使用虚幻引擎,所以我找了些免费的素材,简单地进行了一些场景的制作和光源的调试,并放置了一些书签和机位从摄像机模块开始尝试制作动画演出。
UE1
想要制作动画演出,必须要有相应的分镜稿和剧本,起码要先明确演出的对象是什么。假设没有角色,那就拍摄空镜头;假设有角色,就要体现角色的互动。由简到难,我先构思了一段咖啡厅的空镜头分镜,目的是为了渲染一些氛围,大概是那种“角色进入咖啡厅后,出现一段cg动画,让玩家感受咖啡厅那种典雅宁静的氛围;随后镜头给到了任务目标一类的东西,最终回到刚进门时的视角,以此引导玩家的视觉和重点”的感觉。下面是这段镜头的分镜稿,由于缺少一些实质性的故事背景,所以实际上展现的镜头内容会有点空虚。
UE2
实际上即使是空镜头也可以使用一些镜头手法或者语言,毕竟分镜是为了剧本服务,需要表达的重点是早就决定好的,比如说这一幕就是为了引导玩家视觉重点,突出任务目标(?)最终回到玩家进入场景的第一视角而特地做出的分镜。当然也包括了一些焦距、视角、光圈的变化。
UE-case.g
UE5-27秒入场动画-咖啡厅场景切换(空镜头)UE-case
渲染风格
零基础自学建站流程
核心能力:
①服务器运维,Linux基础操作、环境部署与安全配置,可独立排查服务器常见运行问题。
②前端开发与适配,熟悉HTML/CSS/PHP基础应用,能基于现有框架进行定制化开发,解决样式冲突、响应式布局等问题。
③问题拆解与技术攻坚,可将复杂任务模块化拆解,按框架搭建、功能实现、优化迭代逐步推进并落地。
④资源整合与项目落地,能合理利用服务器资源,将建站需求转化为可执行方案,完成从想法到产品的闭环;并通过跨领域AI协作实现代码优化与网站定制化开发。


在“建站初衷”里提到过,最初只是因为打算跟朋友一起玩Minecraft,所以去学习了开服教程,我从这部分的经历中了解到了云服务器的基本概念以及运作原理:既然是云服务器,就代表可以以较低的成本在服务器上配置环境,匹配功能,搭建网站。对于我这种接触计算机都是从Windows系统开始的人来说,想要在缺少可视化的代码层面的Linux系统里从零开始搭建环境真的是个挑战。好在html和css语言的可理解性较强,只要了解了每条标签的含义,就可以结合JavaScript完成界面的布局和可视化动态。在这个过程中给我带来的成就感是最强的,看着一次次增添修改标签就能给网站带来变化,逐渐朝着心中满意的形态靠近,也是令人身心愉悦。最后的优化也是一个繁琐的任务,从冗杂繁重的代码开始一步一步“减肥”,在AI的帮助下尽可能使用少的代码来保证功能的正常运行,留下足够的扩展空间,还可以方便我后续再增加想要的功能。

从零开始搭建的渐进式轨迹
首先是基础搭建过程:目标为“服务器初始化与环境配置”——从零学习Linux系统基础操作,解决服务器安全组配置、LNMP和Nginx环境部署、域名解析与备案等核心步骤,完成网站运行的基础底座搭建;

接下来是对主题模板的改造过程:对于框架模板进行再开发,基于Typecho管理系统把主题代码全部修改成适配Typecho功能接口的样式(比如文章、分类、独立页面)——新增Typecho所需的header.php、footer.php、post.php等一共9个核心文件,适配个人展示需求,将网站的页面板块结构化,解决模板和新增代码间的样式冲突(如下图)、响应式适配、以及装饰图案的优化等问题;

er27
然后是功能扩展过程:根据个人需求新增其他功能——图片点击跳转视频、通过canvas图案移植本地来优化页面加载速度、添加装饰图响应式布局、解决CSS样式覆盖冲突等,还有页面右下角这只伸手的猫咪可以回到顶部,让网站更贴合“我想要一个属于个人的空间”这一核心需求;
开发过程中我还整理并制作了色号参考表、HTML标签使用规范(包含搜索功能),在网页的最下面可以点击对应链接阅览,另外这里提供标签使用规范的的Excel文件,可以在开发网站过程中参考使用:
HTML标签使用规范表-Excel

最后优化性能体验过程:聚焦“实用+高效”以持续迭代——压缩图片大小加快加载速度、优化数据库查询、修复页面兼容性问题(移动端适配),增加平滑和图标旋转等代码来强化使用体验,同时着手制作SOP文档(服务器部署流程、样式修改踩坑经验),来实现可实际重复的操作方法。
语言能力
本人从小接受的是普通话教育,口语流利逻辑清晰。

大学期间获得了英语四级证书,可以进行日常生活中的口语和书面交流。

大学期间因为兴趣使然,花费一年时间自学日语并且通过了日本语能力测试的N1等级。目前在日企内实习,可以使用日语口语进行正常的日常交流,同时也熟悉日语书面或邮件的行文规范。

N1