• 首页 > 云计算频道 > 大模型

    人生搜索引擎免费用,开源版哈利波特“冥想盆”登GitHub热榜,支持中文

    2024年11月20日 15:31:30   来源:量子位公众号

      天啦撸!回溯你在网上看过、做过的一切,也有免费软件可用了!

      简单说,针对任何“之前好像在哪看过”的电脑文件,只需输入相关搜索词,这个软件都能帮你一键轻松回忆了。

      打开方式be like(没错,也有中文版):

      你品,你细品。这像不像《黑镜》中“你的全部历史”那一集,描述了一种人人都植入芯片、能随时读取过去记忆的未来生活。

      更有意思的是,发明这个软件的朋友将其命名为Pensieve(冥想盆),它是指”哈利波特中提取和回顾记忆的那个大水盆子”。

      笑死,你别说还真贴切!事实上,这个项目大量借鉴了之前就很火的“记忆助手软件”Rewind和微软的Windows Recall功能。

      但是,这两个emmm……Rewind要收费(基础版12美元/月),微软的延期了。

      所以,既免费、又立即可用的Pensieve是真香了!

      这不,代码更新后迅速登上了GitHub热榜~

      记住并回忆电脑屏幕上的所有内容

      我们先来看GitHub页面上Pensieve(原名为Memos)的官方介绍:

      一个以隐私为中心的被动录制项目。它可以自动记录屏幕内容,构建智能索引,并提供方便的网页界面以检索历史记录。

      是不是听起来还是有点抽象?

      别急,我们马上拿Rewind和Windows Recall来一波回忆杀(doge)。

      先说微软画了很久的大饼——Windows Recall。这个功能是今年5月首次被提出的,当时微软计划将其作为C opilot + PC的一项旗舰功能推出。

      当时主打,任何文件或网页浏览记录都可以用自然语言搜索,轻松回忆任何东西。

      然而,由于安全方面的担忧,该功能的发布被一再推迟,且至今仍未上线。

      细数一下,微软最初计划于6月18日发布,但由于安全问题,到了时间点却未能按时上线。

      后来微软对其进行了改进,加入了高级加密和Windows Hello认证,数据被保存在VBS安全区中,第三方应用和用户无法访问,而且截图将自动排除诸如密码和信用卡信息等敏感内容。

      一番改造后,微软又计划在10月底开始测试新版本的Windows Recall。

      直到今日,该功能仍未上线,微软还在改改改……

      此外,对于“记忆助手”Rewind,虽然干得热火朝天,但奈何它是收费滴。

      Rewind成立于2020年,主打通过AI技术捕捉和整理用户的全部生活内容。

      具体功能和Windows Recall类似,也是帮助用户记录并回溯在手机或电脑上看过的所有信息。

      不过除了走到“回忆起”这一步,Rewind走得更远了一点。

      它还接入了GPT-4,能够对这些“记忆”进行更深一步的操作,使得用户可以通过提出问题、创建摘要等方式与系统进行交互。

      而就在Rewind功能更加完备的过程中,它也收获了资本的青睐。

      截至今年初,Rewind已经完成了两轮融资,共计2790万美元,估值约为3.5亿美元(25.34亿人民币),而且两轮中都有OpenAI CEO Sam Altman和a16z的身影。

      相比之下,根据项目作者的说法,Pensieve的最大特点在于:

      允许用户完全控制自己的数据,避免将数据传输到不可信的数据中心。

      具体而言,Pensieve拥有以下几个特点:

      简单安装,只需通过pip安装依赖项即可开始;

      所有数据均本地存储,允许完全本地操作和自主数据管理;

      实现全文和向量搜索;

      与Ollama(一个支持本地部署LLM的开源框架)集成,增强搜索能力;

      支持Mac和Windows(Linux支持正在开发中);

      兼容任何OpenAI API模型(例如,OpenAI、Azure OpenAI、vLLM等);

      允许用户选择和设置语言模型(包括中文和英文);

      允许通过插件扩展功能;

      下面重点介绍大家关心的几个问题。

      第一,需要占用多少存储。

      作者贴心预估了一下,每月按20个工作日计算,产生的截图文件约8GB。截图会进行去重,如果连续截图内容变化不大,那么只会保留一张截图。

      SQLite数据库大小取决于索引的截图数量,10万张截图索引后约占用2.2GB存储空间。

      第二,关于功耗和硬件设备。

      Pensieve默认需要两个计算密集型任务:1)一个是OCR任务,用于从截图提取文本;2)另一个是嵌入任务,用于提取语义信息和构建向量索引;

      对于前者,作者使用CPU执行,并针对不同的操作系统优化以最小化CPU使用。

      而对于后者,作者认为可以按照自己的设备进行选择:

      NVIDIA GPU设备优先使用GPU;

      苹果设备优先使用Metal GPU;

      其他设备使用CPU;

      当然,为了避免影响用户日常使用,Pensieve还采取了优化措施。

      一方面,Pensieve能够根据用户的活动模式动态调整索引构建的频率。也就是说,在用户使用电脑时,它会降低索引构建的优先级,以减少系统资源的占用。

      另一方面,Pensieve在设计时考虑了电池使用寿命,通过监控电池状态,当电池电量低于某个阈值时,会自动减少资源消耗,以延长电池使用时间。

      第三,隐私安全如何保证。

      Pensieve作者提出了4点措施来保证用户隐私,包括:

      1、代码是完全开源且易于理解的Python代码,允许任何人审查以确保没有后门或恶意软件。

      2、本地化数据存储。Pensieve将所有数据存储在用户的本地设备上,而不是上传到云端服务器。

      3、易于卸载:Pensieve提供了简单的卸载过程,用户可以轻松地从系统中移除。

      4、数据处理完全由用户控制。用户可以自由选择何时启动或停止记录,以及如何管理和查询自己的数据。

      另外,作为一个独立项目,Pensieve所使用的机器学习模型(包括VLM和嵌入模型)都允许由用户选择。

      这就上手安装试试

      概括而言,使用Pensieve大致包括以下几个步骤:

      安装Pensieve

      初始化pensieve配置文件和sqlite数据库

      使用两行命令启动服务

      打开浏览器并访问Web界面

      BTW,Pensieve作者也贴心奉上了“食用指南”,简单概括如下:

      1、选择适当的嵌入模型

      由于Pensieve使用嵌入模型提取语义信息并构建向量索引,故选择合适的嵌入模型至关重要。

      根据用户习惯的语言,作者提供了中英两种模型。

      2、使用Ollama进行视觉搜索

      默认情况下,Pensieve仅启用OCR插件从截图提取文本并构建索引。然而,这种方法极大限制了没有文本的图像的搜索效果。

      对此,我们需要一个与OpenAI API兼容的多模态图像理解服务,刚好Ollama可以胜任。

      需要提醒的是,在启动VLM功能之前,对硬件有一定要求:

      推荐配置:至少8GB VRAM的NVIDIA显卡或搭载M系列芯片的Mac;

      CPU模式不推荐,因为它会导致系统严重卡顿;

      3、全文索引

      由于Pensieve默认情况下并非所有截图都会立即索引,因此,需要以下命令行,才能实现全文索引功能。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。