跳转到内容
彼岸论坛

小天管理

管理员
  • 内容数

    19567
  • 注册日期

  • 最后上线

  • 得奖次数

    5

小天管理 发表的所有内容

  1. 谢谢大家,看看 v 上有没有类似经历的朋友 需求:隐形正畸,隐适美或者时代天使 问题 1:在北京,隐适美或者时代天使大概价格是什么样的 问题 2:应该去北大口腔/北京口腔这类三甲专业口腔医院还是类似瑞尔 瑞泰私立口腔,他们说医生的方案很重要,目前是打算找专业口腔医院正畸科大夫 问题 3:其他有没有什么注意的问题
  2. 乘着苹果教育优惠活动,给自己换了 MacbookPro ,想问问 v 友们,有没有好用的软件/工具推荐一下,比如写文章、记笔记、做图、ppt 等...
  3. 先放个链接: https://github.com/lazyFrogLOL/llmdocparser 目前有很多方案用于 RAG 的 text chunking 部分,例如最著名的就是 Langchain 项目中集成的 Unstructure。 Unstructure 的优势在于,集成了一整套 OCR 、版面分析等方案,输出丰富的 text chunks 。不过它没法解决文档中图片、图表的解析。 然后最近有一个比较火的项目,gptpdf,它使用 PyMuPDF 对 pdf 的版面进行解析,通过设定一定规则,合并文本区域,并且标注出图片图表区域,将这些统统扔给 GPT-4o 或者 Qwen-VL 这样的多模态模型识别,生成一个完整的 markdown 格式文档。 这个项目特别简洁,一共就不到 300 行代码。 我读完后,觉得目前目标是直接构建能够用于 RAG 索引的 text chunks 。那么是否最后输出 markdown 其实也没那么重要。于是在它的思路上又做了一些改造,形成了一套新的 PDF 解析方案llmdocparser。 下面我来介绍一下整个方案。 流程介绍 首先,我们仍然需要进行版面分析,gptpdf 使用了规则进行版面分析,我这里用的是 paddleocr 的 PPStructure 模型, 它的解析能够生成每一页各个区域的类别、位置及阅读顺序信息,示例如下, [{'header': ((101, 66, 436, 102), 0)}, {'header': ((1038, 81, 1088, 95), 1)}, {'title': ((106, 215, 947, 284), 2)}, {'text': ((101, 319, 835, 390), 3)}, {'text': ((100, 565, 579, 933), 4)}, {'text': ((100, 967, 573, 1025), 5)}, {'text': ((121, 1055, 276, 1091), 6)}, {'reference': ((101, 1124, 562, 1429), 7)}, {'text': ((610, 565, 1089, 930), 8)}, {'text': ((613, 976, 1006, 1045), 9)}, {'title': ((612, 1114, 726, 1129), 10)}, {'text': ((611, 1165, 1089, 1431), 11)}, {'title': ((1011, 1471, 1084, 1492), 12)}] 基于这个信息,能够设定丰富一些的规则,来进行区域的合并。例如下图是一个版面分析的结果: 基于一些现实的情况,我们可以设置让重叠的区域合并,title 类型和接下来的一个 text 类型的区域合并等。 合并完成后,更新了区域的位置,然后将每个区域保存成图片,以供后续大模型解析。 当然,这里其实有挺多种状况值得处理,例如版面分析时,有些图片没有被定位到。这里就仍然需要使用 PyMuPDF 也解析一遍页面,获取它的解析结果。然后和模型解析的结果进行对比,补充未被识别的区域。 最后,所有的图片将一一传送给多模态大模型进行解析,形成一个 text chunks 表格: | filepath | type | page_no | filename | content | |-------------------------------------------|-----------------|---------|---------------------------|-----------------------| | output/page_1_title.png | Title | 1 | attention is all you need | [Text Block 1] | | output/page_1_text.png | Text | 1 | attention is all you need | [Text Block 2] | | output/page_2_figure.png | Figure | 2 | attention is all you need | [Text Block 3] | | output/page_2_figure_caption.png | Figure caption | 2 | attention is all you need | [Text Block 4] | | output/page_3_table.png | Table | 3 | attention is all you need | [Text Block 5] | | output/page_3_table_caption.png | Table caption | 3 | attention is all you need | [Text Block 6] | | output/page_1_header.png | Header | 1 | attention is all you need | [Text Block 7] | | output/page_2_footer.png | Footer | 2 | attention is all you need | [Text Block 8] | | output/page_3_reference.png | Reference | 3 | attention is all you need | [Text Block 9] | | output/page_1_equation.png | Equation | 1 | attention is all you need | [Text Block 10] | 这个表格中包含了,区域截图的位置、类型、页码,文件名以及对应解析出来的文本块。 后续这个用法就比较丰富了,假如是图片类型的文本块被检索到,则可以在回答中返回这个截图的位置,前端进行渲染后,生成图文并茂的回答。 总结 具体的用法可参加项目的 README 文档,特别简单, Installation pip install llmdocparser Usage from llmdocparser.llm_parser import get_image_content content = get_image_content( llm_type="azure", pdf_path="path/to/your/pdf", output_dir="path/to/output/directory", max_concurrency=5, azure_deployment="azure-gpt-4o", azure_endpoint="your_azure_endpoint", api_key="your_api_key", api_version="your_api_version" ) print(content) 这里需要注意的是,项目支持 Azure 、OpenAI 、DashScope 三种服务商,llm_type 如果是 azure 的话,则需要传入 azure_deployment 和 azure_endpoint 参数。 假如是调用兼容 OpenAI 接口格式的 API ,则传入 base_url 和 api_key 即可。 这个项目也并不复杂,如果有疑问,可以提个 issue 。
  4. 如题,想要用不同版本的 b 站
  5. 行为审计 职责: 1 、对主机资产进行人工或工具辅助方式的安全审计(日志,流量)。 2 、透过审计,能发现潜在的安全风险。同时通过对关键资产操作配置行为的审计,安全部门可以及时了解现有资产的相关状态,便于后续安全策略的跟进实施。 要求: 1 、熟 Linux, cdn, waf, aliyun, gcp, aws 。 2 、管理过 k8s, docker, Prometheus, graylog 。 3 、能够分析从日志系统分析出安全风险。 4 、能主动跟进新的安全事件。 安全运维 职责: 1 、对公司生产环境及 OA 环境进行安全加固,并定期进行巡检; 2 、对生产环境 OS 、服务、数据库等软件版本进行基线测试和安全加固; 3 、安全事件排查与分析,配合定期编写安全分析报告,专注业内安全事件; 4 、跟踪最新漏洞信息,进行业务产品的安全检查; 5 、负责信息安全策略/流程的制定,安全培训/宣传及推广; 6 、负责相关系统漏洞修复工作推进,跟踪解决情况,问题收集; 7 、负责系统安全监控和应急响应。 8 、需轮值班处理工作任务。 要求: 1 、熟悉主流的 Web 安全技术,包括 SQL 注入、XSS 、CSRF 等 OWASP TOP 10 安全风险; 2 、熟悉 Linux/Windows 下系统和软件的安全配置与加固; 3 、熟悉常见的安全产品及原理,例如 IDS 、IPS 、防火墙等; 4 、熟悉常见监控、日志系统的架构、原理及维护,如 Grafana 、Prometheus 、Wazuh 、Graylog 、ELK 、Zabbix 等; 5 、熟悉常见 VPN 、应用代理的基本原理、部署及维护,如 OpenVPN 、IpSec 、WireGuard 、Trojan 、Shadowsocks 等 6 、掌握常见系统、应用的日志分析方法及具有安全事件挖掘、调查取证经验 7 、掌握 Go/Python/Shell 等 1 或多种语言; 8 、网络基础扎实,熟悉 TCP/IP 协议,二层转发和三层路由的原理,动态路由协议,常用的应用层协议; 9 、具有较强的问题综合分析和解决能力,较强心理素质及独立工作能力,具备良好团队合作能力, 较好的文档撰写能力及较好的沟通表达能力 10 、熟悉 Kubernetes ,等 Cloud-native 常见架构和技术,与云原生安全议题。 11 、熟悉 AWS, GCP, ALIYUN, Azure 等云端厂商服务。 12 、具有三年以上,应急响应安全事件处理经验。 *必须符合岗位要求 工作时间:8 小时左右 地点:居家远程 薪资:20-35k+绩效
  6. 道听途说地了解到知乎整体内容质量大不如前,但尚能屎里淘金。前段时间虽然知乎屏蔽了 Bing 的爬虫还使用乱码干扰,但点进去的内容也符合检索的关键词。前几天朋友发来一个知乎链接,用手机点进去发现阅读全文必须登录,电脑亦然,明明前一段时间还不用。电子洁癖患者自然选择一笑了之,不看了。 技术问题还可以 Bing 或者 Google 一下,查询办事章程等就只能搜到 XX 新闻的过时信息。微信公众号文章尚能用搜狗,微博不登录也能搜几条,贴吧偶尔能搜到有用的,小红书那是连网页版都没有,居然就剩抖音最开放?!每个巨头都在圈地,都有各自的局域网,圈内互联,圈外失联。 唉~电子洁癖不友好型。是病,得治。
  7. 想家用存存电影资源,但是对 NAS 不了解,目前 1k 出头的价位好像除了 QNAS 就是天钡 wrt pro ( n100 款)?两者的价钱好像差不多,但是我对 QNAS 的硬件不太了解。 PS:天钡最近还出了 wrt pro ( 5825U 款),我看也没什么讨论,5825U 据说比 n100 的性能强 3 倍,但价钱已经到 1899 ,普通家用应该不需要这么高的性能
  8. 做了一个简单的,图文封面设计工具,欢迎大家体验点评 工具: https://www.ubrand.com/ai-social-post 基本逻辑:输入主题。或者上传一张图片,即可生成对应的图片。 特点:模板简洁,基本是社交平台上好看、清爽干净的图文排版设计; 操作简单,免费使用。
  9. 从国内大厂裁员出来,目前 3 份 Offer ,一份 offer 待最终面但是前几个比较急。 原工作税前 345k 。 公司一,国内某工业大厂,已拿 offer ,月薪 26k ,13 薪,加上其它补贴约等于上份工作的税前,公积金最低档。隔壁市,房价相比很便宜月薪>房价均价每平米,可以周末坐火车来回,号称不怎么加班的 975 ,但是看员工评论加班比较严重。 公司二,某外资背景的创业公司,工业方向的小厂,已拿 offer ,月薪 26k ,13 薪,且给目前估值 10w rmb 的美国本部公司的股票,公积金最低档,号称 975 不加班,离家单程 2 小时过去要租房,公司规模很小大概只有几十人的团队,融资 B 轮。不清楚实际加班情况。 公司三,国内大国企,互联网方向,已拿 offer ,月薪到手 12k ,非工资类福利补贴一年约 30k ,年终奖约 80k ,公积金最高档,五险二金,965 除了上线几乎不加班(有证实),公司内高龄人员众多,面试时说明不裁员,但是超过一定年龄后不会给升职机会,离家可以坐地铁单程 60 分钟。 公司四,国内大国企,金融方向,等待最终面,月薪 15k ,20 薪,上班 965 ,公积金最高档。面试时说明会加班到 8-9 点,离家可以坐地铁单程 40 分钟。 各位会选哪个呢?觉得哪个更合适?
  10. 忘了在哪本书上看到的例子: package main import "fmt" func main() { // 不指定类型时为浮点数 var a = 2e3 fmt.Printf("%T: %v\n", a, a) // 输出:float64: 2000 // 编译成功,因为 1.5e3 等于 1500 ,是一个整数 var b int = 1.5e3 fmt.Printf("%T: %v\n", b, b) // 输出:int: 1500 } 上面代码中,为什么 var b int = 1.5e3 能通过编译,难道科学计数法被视为算术表达式或常量表达式?不然我只能认为 Go 语言存在隐式类型转换了。 有请知道的大佬解答原因,还有没有类似的情况呢?
  11. 昨晚撸了巴黎一个奥运会中央台的直播节目时间表,欢迎各位体育爱好者食用。 地址: https://2024.lingbaoboy.com
  12. 发现一个问题,很多翻译 Google YouTube Extenstion 所提供的翻译字幕不准确,如 AI Subtitles & Immersive Translate - Trancy 和 Language Reactor 提供的翻译都不太准确。 用这两个拓展翻译都不太准确。所以想找英文 Native Speaker 带有中文字幕并且具有批判性思维和分析思维的非营利独立新闻媒体 YouTube 频道。 急需养成 Think in English,但发现这两 Extenstion 在翻译带有英文字幕(非系统自动翻译的字幕)的视频时,它们都不能较准确的翻译。
  13. 欢迎老哥体验
  14. 目前跟女友两人在沈阳,打算换工作。女友是产品,我是后端,都是 1~3 年,想赚点钱,请问哪个城市好一点呀。
  15. 手持一加 12 ,coloros ,装了个第三方启动器,每次打开新应用都要确认,而装的天气通,随便误触了一下,直接跳微信小程序,关都关不掉。正常用,要你各种权限,要推广告了,一路绿灯。就离谱
  16. 做过了很多项目了,但是每个项目里面各种文案、警告这些,基本上都是开发自己草拟,写的时候好一点的也就是各种字面量字符串到处写。 比如:Util.alert("密码不正确");这样子。 想问下大家的项目中是怎么要求的? 以及讨论下不同方式的优缺点呢。
  17. https://mjj.today/i/jAVrM9 车险快到期了,问了人保和平安,人保的价格低点,但是明确表示没有任何返点。兄弟们帮忙看看这个内容划算吗?有某些选项有去处的必要吗?
  18. (上一个帖子好像发错节点了,重新发一次) 作为资深 INTP 我有一个特别强烈的需求 就是想知道某些事情的上次完成时间 以及循环提醒功能,在完成之后重置倒计时 而市面上大部份软件,要么是 TODO 、要么是习惯养成,往往还有复杂的设置( P 人劝退) 其实这些事情对我来说不是必须要做的,我只是想看看大概过了多久,想起来就记录一次 基于这一点,我开发了 LaxtTime 它的核心功能其实相当简单 直观的展示上次距今的完成时间 循环提醒,在完成之后重置倒计时 至于其它功能,比如说 [记录] 支持选项、图片、数值记录 [日程管理] 支持以周、月的角度查看完成的记录,以及将来的提醒 [总结] 支持以周、月、年来总结记录,包括打卡时间分布,打卡次数 [6 MB 的空间] 软件只有一张图片的大小 都是锦上添花的功能 某种程度上,LaxtTime 也帮我这个资深 P 人,建立了一些生活的秩序感 比如说我的锻炼和冥想次数比之前更规律了,尝试自己做饭,减少外卖次数 也会开始有意识的记录生活中的每件事 总之,这是一款简单友好的软件,没有复杂的设置,没有反复的提醒 简单,但是可靠 官网: https://laxttime.top/ 下载链接: https://apps.apple.com/zh/app/laxttime/id6504433140 送 20 个月度会员兑换码,欢迎领取使用 兑换后麻烦在帖子里说一声,谢谢 743R3MHMR49T APTL3P79HFA4 34ETK66XPYXL NLRRREJLEP7K EP47FPNKTFKT X4YAPHK3P67A PP73YXPNEH3R HWJMF46PY6LM NX7NMAKP37KR XWMER4M39P94 6JXXY9RXXAHY X4ARJAAH374L LHMPAEALRTA7 M9PFL3MYE664 THNY3EKRJHKK T7A66YPFFM6R TLAW4TN3KKRE TYRE76AL6XLM NRPL3NW33LME MMANHMLWLTNL J96REM477AW4
  19. 前两天用户反馈移动端网页访问不正常,一查看发现,特定的路由会触发跳转到黄色广告地址。 如: 网址:https://www.网址.com/edu 在 pc 端正常访问,但在移动端就会被跳转到其他网站上。 如修改路由为/edu123也会跳转,修改为/ed则不会。初步判断关键字为edu。 进行排查: dns污染 网站都是使用了https,排除 nginx 通过查看日志以及转发记录,发现/edu 被转发到了 php-cgi ,排除 php 在排查时在看见 v2 中有人遇到类似的问题,于是照着大佬的思路排查,结果发现每个站都被添加了一个 pass.php 文件。 根据代码内容搜索,是用Godzilla生成的木马脚本。对网络安全这个块不太懂,有没有大佬知道怎么切底清除这个脚本带来的影响? 初步处理尝试: 清除每个站点下的 pass.php 文件,以及相同时间被创建的一些文件。检查 php.ini 文件以及 so 文件是否被修改。没有发现可疑配置后,重启 php 服务再次访问。 结果还是一样会跳转到其他网站。。。 继续排查: 查看 php 慢日志时,发现请求网页时有执行file_get_contents函数,于是循着文件路径查看,找到了罪魁祸首,项目composer下的autoload_real.php被植入了一行代码,删除掉后网址恢复正常。 疑问请求: 请问这是利用了 composer 的漏洞吗? composer 的版本是 2.3.7? 然后被植入 pass.php 的文件是不是宝塔的漏洞导致被上传的?因为我看到这些文件都是 www 宝塔用户上传的。
  20. 最近有一个活,小程序 canvas 把图案拼接到衬衫上,canvas 预览效果。 心理没底能实现到什么程度,想找个案例看看
  21. 关于我们 - Infinity Ground 正在构建由 AI 技术驱动的下一代游戏平台。采用领先技术,实现了游戏创作的民主化,使得无论技术背景如何,每个人都能轻松打造专属的 AI 游戏体验。我们不仅提供工具,更通过设置独特的激励机制,激发创造力和奖励参与贡献,建立一个富有全新活力的游戏社区。 - 我们的团队聚集了来自剑桥大学、哥伦比亚大学、清华大学等全球化顶尖高校的复合型人才,曾在 Google 、Tiktok 等科技大厂及 AI start-ups 有丰富的实践经验。 - 借助我们独特的技术和深度的行业理解,Infinity Ground 已成为推动游戏创作和玩家体验革新的重要力量。我们坚信,通过助力每一个创者与玩家实现他们的游戏梦想。 岗位 JD:资深全栈工程师(全职) [岗位职责] 1 、系统设计与架构: 参与并主导系统架构设计,确保系统的高可用性、可扩展性和安全性。 2 、前端开发: 使用 React 框架进行前端开发,负责用户界面设计与实现,确保良好的用户体验和响应速度。 3 、后端开发: 使用 Python 进行后端开发,设计和实现 API 接口,进行数据库设计与优化。 4 、技术创新: 关注前沿技术,持续优化和改进现有系统,提升系统性能和稳定性。 [岗位要求] 1 、教育背景: 计算机科学、软件工程或相关专业本科及以上学历。 2 、工作经验:5 年以上全栈开发经验,有大型项目的开发和维护经验。 3 、技术技能: - 精通 React 框架,熟悉其生态系统(如 Redux 、React Router 等)。 - 精通 Python ,熟悉常用的后端框架(如 Django 、Flask 等)。 - 熟悉前端技术( HTML 、CSS 、JavaScript )和前端构建工具(如 Webpack 、Babel 等)。 - 熟悉数据库设计与管理(如 MySQL 、PostgreSQL 、MongoDB 等)。 - 熟悉 RESTful API 设计与实现。 [加分项] 1 、前后端技术栈同时擅长 java+vue 优先考虑;或擅长其中一项亦可 2 、具有 Web3 或 AI 行业相关经验者优先。 投递简历: hello@infinityg.ai ,备注:姓名+岗位+v2ex
  22. 没有一点思路 能想到的就是去招聘网站看 有没有类似专门找硬件公司的这种网站
  23. 目前内测期间 1.2 TRX 租 32000 能量。 地址: https://www.tron4u.com/
×
×
  • 创建新的...