【MiniCPM-V】win10本地部署OCR等性能测试

news/2024/6/17 2:56:54/文章来源:https://blog.csdn.net/Q1599293439/article/details/139116462

性能尝试

本地配置如下

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 546.80                 Driver Version: 546.80       CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                     TCC/WDDM  | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3080 ...  WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   52C    P0              43W / 140W |      0MiB / 16384MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------++---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

1. Response time latency(普遍推理时间在1-2min内不等)

2. OCR理解能力,找图片试一下,多模态图片

3. 作为llm的语义理解能力


案例一:柱状图

在这里插入图片描述

案例二:中文发票 -> json格式

请添加图片描述

{
“发票类型”: “上海市服务业、娱、贸文化体育统一发票”,
“发票号码”: “23100127006108438658”,
“开票日期”: “2012/10/11”,
“供应商信息”: {
“名称”: “上海师范学校专科附属小学”,
“税务登记号”: “3101011325090797”
},
“购买方信息”: {
“名称”: “上海市保安服务总公司黄浦区”,
“税务登记号”: “3101011325090798”
},
“项目信息”: {
“项目名称”: “项目服务”,
“项目单价”: “700.00”,
“数量”: “6”,
“金额”: “4200.00”,
“税率”: “6%”,
“税额”: “126.00”,
“合计”: “4200.00”
},
“其他信息”: {
“税款登记号”: “3101011325090799”,
“收款人姓名”: “余周”,
“付款人姓名”: “李明”
}
}

案例三:英文机票 -> json格式

在这里插入图片描述

{
“title”: “E-Boarding Pass”,
“notice”: “You may proceed directly to the boarding gate using this e-boarding pass. You can download and share this e-boarding pass with other guests in your booking.”,
“airlines”: [
{
“logo”: “AirAsia”,(难)
“destination”: “Macao International Airport”,(错)(缺少出发地)
“flight_no”: “FD 776”,
“date”: “14 Mar 2024”,
“time”: “10:10”
}
],
“booking_details”: {
“flight_no”: “FD 776”,
“departure_date”: “14 Mar 2024”,
“departure_time”: “10:10”,
“seat”: “19E”,
“sequence”: “8”
},
“qr_code”: “包含在条形码和二维码内的信息”,
“status”: “ASA”
}

案例四:ppt -> 根据这个图片写一段演讲稿

请添加图片描述

尊敬的各位来宾,今天我非常荣幸能够在这里与大家分享我们的内容赋能解决方案。随着信息化时代的到来,我们面临着如何充分利用数据资源来推动业务发展的挑战。在这个过程中,基于非结构化数据的分析和管理显得尤为重要。
我们深入研究了现有的企业业务系统,并针对其中的关键业务系统进行了优化。OA、ERP等系统通过内容采集的方式,将文档的文本和内容转换成可供分析的形式,从而实现对业务数据的精准理解和决策支持。
此外,我们还专注于内容处理服务的流程自动化和业务数据贯通,为企业提供了更高效的工作流程和数据共享能力。而在内容分析数据这一核心环节,我们采用了先进的数据分析技术,挖掘出隐藏在海量数据背后的宝贵信息。
为了更好地管理和运营这些内容,我们建立了内容管理体系架构,包括图谱标签、内容总线和内容数据湖等模块。这不仅有助于组织和检索内容,还能提高内容的价值和利用率。
最后,我们还提供了电子档案管理、合同管理、SAP智能内容管理等功能,以满足不同行业和业务需求的个性化服务。
总结来说,我们的内容赋能解决方案旨在帮助企业将非结构化数据转化为有价值的业务资产,提升业务效率和竞争力。感谢大家的聆听。

案例五:食物链描述(有几个动物错误,但人也难以辨认,基本正确)

请添加图片描述

<User>: 用语言描述这个食物链
<Assistant>: 这个食物链展示了一个典型的草原生态系统,包括草、树木、各种草食动物和捕食者。草是食物链的基础,为像长颈鹿、斑马、羚羊等动物提供营养。这些动物被描绘为不同的种类,它们通过吃草或其他植物来维持生命。食草动物之间存在竞争关系,但也可以共存,因为每个物种有自己偏好的植被类型。
<User>: 描述每一个动物之间的关系
<Assistant>: 根据食物链的图表,狮子是食肉动物,猎杀斑马和长颈鹿以获取食物。豹子也捕食猎物,包括猎鸟和羚羊。野猪可能会吃植物或其他小动物,而狗可能会捕食小型哺乳动物或食用人类提供的食物。鸟类,如鹰,可能捕食小型哺乳动物或其他鸟类。狐狸可能捕食小型哺乳动物或觅食垃圾。鼠兔可能被猫科动物如豹子和狗捕食,而大象是草食性动物,主要以树叶为食。草原和森林环境中存在的树木为食草动物提供了必要的植被。总体而言,这个图表展示了各种生物之间的相互依存关系,其中每个生物都在其生态系统内扮演着特定的角色。

案例六:复杂结构描述

在这里插入图片描述

这张图展示了非结构化数据AI洞察发展的路径,按照场景和内容级别的复杂性进行分类。图表的左侧是通用图谱、行业图谱和行业词库等类型的非结构化数据,而右侧则展示了从基础的基于元数据的核心资产管理到更高级别的智能标签、智能定密、文字OCR、物体识别、人像识别等技术应用的层次。图表的上部包含了自主探索式搜索、场景下的知识推荐、基于元数据的核心资产管理以及内容级别结构化分析等功能。图表的下部聚焦在具体的应用场景,如AI引擎、主题趋势预测、安全洞察等。整体上,这个图表提供了一种视觉化的方式来理解和规划在不同领域中如何有效地利用和管理非结构化数据。

扇形结构应该是识别不出来,是我要求太高了

案例七:复杂表格请添加图片描述

尝试搜索功能,所在行一般是对的,列感觉有点瞎蒙
尝试转markdown

Description2023 m$2022 $m2021 $m2020 $m2019 $m
Net interest income35,79630,37726,48927,57830,462
Net fee income11,84511,77013,09711,87412,023
Net income from financial instruments held for trading or managed on a fair value basis16,66110,2787,7449,58210,231
Net income/(expense) from assets and liabilities of insurance businesses, including related derivatives, measured at fair value through profit or loss7,887(4,053)3,0812,4783,479
Net insurance premium income(7,809)10,87010,09310,636-
Insurance finance (expense)/income(1,078)13,799---
Insurance service result1,581809---
Gain on acquisition(1,141)(266)1,6871,8664,194
Total operating income66,05850,62063,94064,07171,024
Net income before operating expenses and other charges(14,388)----
Net income before income taxes66,05850,62049,55250,42956,098
Net income before credit impairment charges(3,447)(3,584)(928)(8,176)(7,756)
Net operating income62,61151,48040,51234,64133,544
Total operating expenses excluding impairment of goodwill and other intangible assets(32,355)(32,887)(33,044)(34,955)(37,394)
Impairment of goodwill and other intangible assets285(147)(733)(1,388)(7,394)
Operating profit30,54115,4407,1807,16015,993
Share of profit in associates and joint ventures2,8072,7233,0462,5971,354
Impairment of interest in associate(3,000)----
Profit before tax30,34817,90818,9068,77713,347
Tax expense(5,789)(14,693)(2,678)(4,639)(8,709)
Profit for the year24,55914,69913,0966,7088,099
Attributable to:
- Ordinary

在这里插入图片描述
结果一般,有很多错的,而且没有识别完就结束了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1046910.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ClickHouse

1 .ClickHouse 的特点 ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库&#xff08;DBMS&#xff09;&#xff0c;使用 C 语言编写&#xff0c;主要用于在线分析处理查询&#xff08;OLAP&#xff09;&#xff0c;能够使用 SQL 查询实时生成分析数据报告。 OLA…

免费发布web APP的四个途径(Python和R)

免费发布数据分析类&#x1f310;web APP的几个途径&#x1f4f1; 数据分析类web APP目前用来部署生信工具&#xff0c;统计工具和预测模型等&#xff0c;便利快捷&#xff0c;深受大家喜爱。而一个免费的APP部署途径&#xff0c;对于开发和测试APP都是必要的。根据笔者的经验…

深度融合大语言模型与知识图谱:思通数科企业知识库智能问答系统的创新实践

摘要 在知识经济时代&#xff0c;企业知识管理的重要性日益凸显。本文深入探讨了思通数科如何利用大语言模型和知识图谱技术&#xff0c;构建企业知识库智能问答系统&#xff0c;以促进知识的高效获取、共享、应用和创新&#xff0c;从而提升企业的知识管理水平和业务价值。 1…

2024定制版抢单支付系统源码(开代理自动抢单接单)

随着网络和移动支付技术的不断进步&#xff0c;抢单支付系统已经成为商家和用户进行交易的便利工具。2024定制版抢单支付系统源码为开发者提供了一个可定制化的解决方案&#xff0c;具备开放代理和自动抢单接单功能&#xff0c;帮助用户快速搭建抢单支付平台。本文将为您介绍这…

express.js--连接数据库,并且增删改查(四)

使用数据库需要在电脑安装mysql&#xff0c;然后使用navicat 我没有下载mysql,我使用的是小皮里面的数据库&#xff0c;需要破解版的navicat可以私信我 安装mysql npm i mysql 数据库的基本信息&#xff0c;我是直接写到配置文件里面的 config/index.js module.exports {…

作业-day-240523

思维导图 知识点问答 1、IO多路复用的原理 1、创建一个检测文件描述符的容器 fd_set fds; 2、将需要检测的文件描述符放入容器中 FD_SET(文件描述符&#xff0c;&fds); 3、通过一个阻塞函数阻塞等待容器中是否有事件产生&#xff0c;如果有一个或多个事件产生&#xff0c…

苹果CMS:采集参数设置

我们安装苹果CMS参考苹果cms&#xff1a;介绍及安装&#xff0c;安装好设置采集器苹果CMS&#xff1a;怎么采集&#xff0c;配置采集深度&#xff08;即爬取链接的层次&#xff09;&#xff0c;以及是否遵循robots.txt协议。采集插件通常需要用户自定义匹配规则来解析目标网页内…

C++三剑客之std::any(二) : 源码剖析

目录 1.引言 2.std::any的存储分析 3._Any_big_RTTI与_Any_small_RTTI 4.std::any的构造函数 4.1.从std::any构造 4.2.可变参数模板构造函数 4.3.赋值构造与emplace函数 5.reset函数 6._Cast函数 7.make_any模版函数 8.std::any_cast函数 9.总结 1.引言 C三剑客之s…

文盘Rust -- Mutex解决并发写文件乱序问题

在实际开发过程中&#xff0c;我们可能会遇到并发写文件的场景&#xff0c;如果处理不当很可能出现文件内容乱序问题。下面我们通过一个示例程序描述这一过程并给出解决该问题的方法。 use std::{fs::{self, File, OpenOptions},io::{Write},sync::Arc,time::{SystemTime, UNI…

262 基于matlab的一级倒立摆仿真

基于matlab的一级倒立摆仿真&#xff0c;在对一级倒立摆进行数学建模的基础上&#xff0c;对模型进行线性化&#xff0c;得到其状态空间模型&#xff0c;利用二次型最优控制方法得出控制率。输出角度和位置优化曲线。程序已调通&#xff0c;可直接运行。 262 一级倒立摆仿真 状…

人类听觉处理和语言中枢

人类听觉概述 人类听觉是指通过耳朵接收声音并将其转化为神经信号&#xff0c;从而使我们能够感知和理解声音信息的能力。听觉是人类五种感觉之一&#xff0c;对我们的日常生活和交流至关重要。 听觉是人类交流和沟通的重要工具。通过听觉&#xff0c;我们能够听到他人的语言…

冬奥会|基于SprinBoot+vue的冬奥会科普平台(源码+数据库+文档)

目录 基于SprinBootvue的冬奥会科普平台 一、前言 二、系统设计 三、系统功能设计 1登录注册 2系统功能模块 3管理员功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍&#xff1a;✌️大厂码农|…

跨域计算芯片,一把被忽视的汽车降本尖刀

作者 |王博 编辑 |德新 2019年前后&#xff0c;「中央运算单元区域控制」的架构被提出。基于这一趋势&#xff0c;从板级的多芯片&#xff0c;到板级的单芯片&#xff0c;集成度越来越高&#xff0c;跨域计算芯片随之来到聚光灯下。 跨域计算芯片的特点是&#xff0c;与专为智…

音质全新升级,通信进化:从8K到16K采样率的全双工音频技术

思为无线惊喜升级SA618系列模块&#xff0c; 包括SA618F22,SA618F30&#xff0c; SA628F22, SA628F30&#xff0c; 全双工音频模块采样率由原来的8K升级为现在的16K&#xff0c;采用远距离无线传输&#xff0c;为了迎合不同客户的应用需求&#xff0c;我们将此系列音频音质升级…

JDK8:用java.nio.file.Files.lines方法读取大型文件

先说结论&#xff1a; 如果要读取一个大文件&#xff08;文件大小超过了内存大小&#xff09;&#xff0c;则可以考虑使用java.nio.file.Files.lines方法来读取这个大型文件的内容。 关于java.nio.file.Files类中lines方法的说明&#xff1a; jdk1.8.0_311中原码部分&#xf…

5.23 学习总结

一.项目优化&#xff08;语音通话&#xff09; 实现步骤&#xff1a; 1.用户发送通话申请&#xff0c;并处理通话请求&#xff0c;如果同意&#xff0c;为两个用户之间进行连接。 2.获取到电脑的麦克风和扬声器&#xff0c;将获取到的语音信息转换成以字节数组的形式传递。 …

基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (十一)

基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;十一&#xff09; LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;一&#xff09; 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;二&#xff09; 基于 Lla…

Excel中Lookup函数

#Excel查找函数最常用的是Vlookup&#xff0c;而且是经常用其精确查找。Lookup函数的强大之处在于其“二分法”的原理。 LOOKUP&#xff08;查找值&#xff0c;查找区域&#xff08;Vector/Array&#xff09;&#xff0c;[返回结果区域]&#xff09; 为什么查找区域必须升序/…

Mac启用三指拖移

1. 简介 在使用mac的用户中大部分都会开启三指拖移功能&#xff0c;它能大大简化选中文字、修改窗口大小、拖动窗口等操作。 什么是三指拖移&#xff1f; 三指拖移是macOS触控板的一种手势功能&#xff0c;允许用户用三根手指在触控板上进行拖动操作&#xff0c;而无需按住触…

电脑视频如何压缩变小 mp4视频太大怎么压缩不影响画质

视频格式是指用于存储、编码、解码和播放数字视频内容的特定文件类型和结构。它定义了视频数据的压缩方式、存储布局以及播放参数&#xff0c;确保不同的设备和软件能够识别并正确处理视频文件。视频格式包括两大部分视频编码格式和容器格式。 视频太大的话有时候上传不了&…