将图像转换成水彩画、油画等多种艺术风格,提供多种艺术风格转换服务,可自定义风格图像进行风格转移
将一张人物图像进行转换处理,生成卡通形象,并返回动漫化后的结果图像
多因素生物特征认证系统是一款集声纹认证、人脸认证、语音识别、OTP密钥于一体的融合认证系统
通过眨眼、张嘴、摇头、点头等组合动作,使用人脸关键点定位和人脸追踪等技术,验证用户是否为真实活体 web端直接检测,检测速度快,减少传输过程被攻击、提高系统安全性
两张人脸图片进行 1:1 比对,得出人脸相似度,判断是否是同一个人,适用于人脸识别、身份认证场景
静默活体检测是基于人脸图片中可能存在的畸变、摩尔纹、反光、倒影、边框等信息,判断图片中的人脸是否来自于真人活体,有效抵御纸质翻拍照、电子翻拍照以及视频翻拍等各种攻击方式
判断两段音频文件是否属于同一个人,支持跨信道比对,适用于声纹识别、身份认证场景
将音频文件转换成文本数据,适用于会议/访谈/庭审记录、语音质检场景
也称音频指纹,针对用户提交的音频模板,自动从音视频数据库中检索出包含相同或相似语音片段的音视频文件
根据用户上传的人脸照片,在人脸库中检索相同人脸或相似人脸照片
用户提交图片作为查询样例,检索出与查询样例相同或相似的图片。支持的变换种类包括翻转、旋转(8个角度)、分辨率变化、水印、灰度等
检测图像中的各类车辆,识别车辆外观属性,包括:颜色、车型、朝向、是否有车窗雨眉、是否有车顶架、副驾驶是否有人、驾驶位是否系安全带等
可识别多类常见商品,广泛适用于图像或视频内容分析、拍照识图等业务场景
重建图像和视频中丢失或损坏部分的过程,不仅能帮助照片去除杂物,也可以去除脸上不干净色块或者修复老照片等
重建图像和视频中丢失或损坏部分的过程
去除图片中的文字信息,获得高质量的干净图片
对质量较低的暗光图像进行修复,获得高质量的图像
自动检测图像中是否包含刀具信息
自动检测图像中是否包含枪支信息
自动检测图像中是否包含火焰信息
自动检测图像中是否包含血液信息
自动检测图像中是否包含国旗信息
自动识别图像中是否包含二维码信息,若包含则识别二维码内容。
检测图像中是否存在光线过暗、光线不均、阴影、暗角、灰底噪声、杂色噪声、色块噪声、黑边噪声、模糊噪声、横竖条纹、空白页等质量问题
对图片中的人脸进行关键点定位,并返回常用的人脸关键点坐标位置,包括人脸轮廓、眼睛、眉毛、嘴唇以及鼻子轮廓等,可应用于美颜拍摄、视频贴纸、人脸3D建模等场景
可精准检测出不同场景图片中的文本, 实现快速定位识别。可提供多场景、多语种、高精度的整图文字检测和识别服务
对图片中的表格进行识别,支持识别完整的框线表格、合并单元格表格、无框线表格
检测合同文件、常用票据中是否有印章,确认合同及票据的合法性,可识别文字内容、印章位置。支持圆形章、椭圆形章、方形章等多种常见印章的检测
对图片中的手写中文、英文、数字进行检测和识别,识别准确率可达90%以上
对身份证中的文字内容进行识别,结构化识别中国内地(大陆)二代居民身份证正反面所有字段
识别人体的属性信息,包括性别、年龄、朝向、帽子、眼镜、手提包、挎包、背包、上衣、下衣、鞋子等属性信息
识别图片中是否有人
识别图片中人员是否佩戴安全帽
识别图片中是否有车
检测图像中的交通标志,并按标志类型进行分类,类型包括:限速15km/h、人行横道、禁止停车、静止鸣笛、减速慢行等
图像预处理的一种方式,利用图像分类技术,预先判断含文字图像的方向,并将其进行方向调整,提高OCR处理的准确性
方向分类是文本检测矫正的一部分,判断文本框中的文字方向,如倒向的文字由分类器正向化后再去识别,提高OCR识别的准确性
检测图片中的文字语种
可识别多种瓶装饮料,输出饮料名称,如元气森林、康师傅矿物质水、脉动等
对图片中的动漫人物进行识别,输出动漫人物名称
识别多类商品logo,可准确识别图片中品牌logo的名称,应用于需快速获取品牌信息的业务场景
检测画面中的车辆,识别出车辆品牌和颜色等信息
语义分割是计算机视觉中很重要的一个方向。不同于目标检测和识别,语义分割实现了图像像素级的分类。它能够将一张图片或者视频,按照类别的异同,将图像分为多个块。
高效智能的交互式分割标注软件,涵盖了通用、人像、遥感、医疗、工业质检等不同方向的高质量交互式分割模型,方便开发者快速实现语义及实例标签的标注,降低标注成本
全景分割是实例分割与语义分割的结合,每一个像素点都会分成对应的语义标签和实例标签
通过计算前景的颜色和透明度,将前景从影像中撷取出来的技术,可用于替换背景、影像合成、视觉特效,在电影工业中被广泛地使用
鉴别图像是自然图像还是渲染图像
鉴别图像是自然图像还是上色图像
去除图像中的高光,最大限度还原图像的原有信息
去除图像中的反射光,最大限度还原图像的原有信息
将两人对话语音进行分离并分别输出语音文本。文本内容包含说话人、语句起止时间和语句内容
将文字转化为自然流畅的人声,广泛应用于出行导航、有声阅读等场景
声纹聚类基于N:N声纹识别技术,将多个单人语音文件,按照比对相似度进行聚类,确定一个语音文件群中有几个人,将相同人语音聚类到一起
将60秒以内的语音识别为文字,可用于智能语音交互、语音指令、语音搜索等短语音交互场景
将音频流实时识别为文字,适用于长句语音输入、音视频字幕、会议等场景
将英语音频文件转换成中文文本信息
能够判别给定的语音所属语言的类别,为关键词识别、语音转写等提供语种类别信息,支持19种语言,包括:普通话、维语、藏语、英语、粤语、闽南语、哈萨克语、俄语、越南语、蒙古语、阿拉伯语、土耳其语、法语、德语、日语、韩语、波斯语、印地语、西班牙语
根据用户提交的汉语普通话语音关键词词表,在音视频数据库中检索出包含相同关键词的音视频文件(或在线指定音视频文件),给出关键词出现的位置(时间起始点)和相似程度,结果按照相似程度进行排序
根据用户提交的英语语音关键词词表,在音视频数据库中检索出包含相同关键词的音视频文件(或在线对指定音视频文件),给出关键词出现的位置(时间起始点)和相似程度,结果按照相似程度进行排序
自动检测视频关键帧中是否包含刀具、枪支、火焰、血液、旗帜等暴恐信息
自动检测出视频的文字内容并输出为文本
以图搜视频:支持图片的检索,用户提交图片作为查询样例,自动检索出包含相似关键帧的视频,支持视频序列剪切与拼接变换、分辨率变化、快放慢放
以视频片段搜视频:支持视频片段的检索,用户提交视频片段作为查询样例,自动检索出相似的视频片段,支持视频序列剪切与拼接变换、分辨率变化、快放慢放
根据用户上传的人脸照片,在视频中检索相同或相似人脸
自动识别视频中是否包含二维码信息,若包含则识别二维码内容
自动将视频分割成不同内容的镜头,并提取镜头的关键帧表示镜头内容,方便海量视频数据的快速浏览和检索