• 这里主要是简单介绍了一下思路。
    一直都想在将一些算法落地到实际的测试工作中,实际中还是有难度的,这个刚好算是做了一个落地。

    对于一批数据,如果用 kmenas 聚类,其实也比较简单:
    1.先随机挑选几个作为中心点,比如说想要 8 类的话就选 8 个,想要 10 类就选 10 个;
    2.对于剩余的数据,挨个计算它和步骤 1) 选择的中心点之间的距离,然后挑一个最近的,那么他就属于这一类;
    3.当每个点都找到了一个类别之后,把每个类别的所有点取个平均值,做为新的中心点,然后回到步骤 2) 继续即可

    代码量不大,我使用 python 写的,python 有直接的包可以调用

  • 职场 DIY at 2021年09月07日

    是的,不要让那个 jd 框住自己。

  • 职场 DIY at 2021年09月07日

    工作里可以尝试自己去定义岗位岗位的工作内容

  • 补充一下,前面用 kmeans 解决了自动化聚类的问题,后面针对算法的结果,又采用了 k 紧邻的方式自动判断算法效果属于哪一类。前期和后期都用算法进行了处理

  • 文中提到的测试集要做的 3 点工作,每一个其实都可以通过系统或者平台进行解决。

  • 算法测试该怎么报 bug at 2021年06月09日

    按照类别报 bug,会有一个问题。一般情况下影响算法的因素大体来说就那么几种,比如光线问题,角度问题等。按照类别报的话,就会出现一个算法产品就那么几个 bug。
    隐隐觉得传统的 bug 设计思路不是很适合算法测试

  • 算法测试该怎么报 bug at 2021年06月08日

    其实还有一个问题,就是对于识别类或者检测类算法来说,RD 一般是不会针对具体的几张图片去解决问题的。特别是用神经网络训练出来的模型,基本上具有不可解释性,RD 更多的是解决一类问题。如果报 bug 的时候,只报几张图片,其实对于 RD 来说没有什么意义

  • 对于比较复杂的系统,存在累积误差。比如说一个系统有三个模块,每个模块的准确率是 95%,最终系统的准确率是 0.95*0.95*095=0.86

  • 大公司付得起人才培养的成本,应届生培养出来更符合公司的企业文化。小公司一般是要求进来就能直接干活的,应届生一般很难做到

  • 模型确实做不到 100% 准确,对于模型来说,主要是要达到统计学意义上的效果,比如说准确率是 99%,并不是测试集只有 100 个,通常测试集都是数百万乃至数亿条数据。在大量数据测试下,达到一个大家能够接受的效果。