关于淘宝网正品率的统计分析-教育学术-万维论坛-万维读者网（电脑版）

送交者: youkongliao 2015年01月29日13:06:14 于 [教育学术] 发送悄悄话

先简单介绍一下背景。

1月23日，工商总局在其官方网站上，发布《2014年下半年网络交易商品定向监测结果》。报告显示，2014年8月至10月，国家工商总局网监司委托中国消费者协会开展网络交易商品定向监测，共完成92个批次的样品采样，其中，淘宝网样本51个，正品率为37.25%。京东商城、天猫、1号店的样本数量分别为20个、7个和10个，正品率分别为90%、85.71%和80%。聚美优品的3个样本均为正品;中关村电子商城的1个样本为非正品，正品率0%。

1月27日，一位80后淘宝网运营小二发出公开信，直接就这份报告所存在的程序性问题点名该司刘红亮司长，认为这份报告不仅抽样太少、逻辑混乱，。。。。该信指出，“您看，贵司此次共抽检了92批次商品。某电商只抽查了1件，得出了正品率为0的结论。另一家电商只抽查了3件，得出正品率100%的结论。而在淘宝网上一共抽检了51件商品，得出了淘宝仅37%的正品率，也就是63%的售假率。可是，淘宝日均在线商品总量超过10亿件。。。。

详细报道请见http://finance.ifeng.com/a/20150127/13461835_0.shtml

我们先对陶宝网的数据小结一下：商品总量N= 10亿；样本量n = 51；样本中正品率 phat = 37.25%，导出样本中正品数x = n*phat = 19.

双方结论：

工商总局：因为样本正品率phat = 37.25%，所以商品总量中的正品率 p = 37.25%。

陶宝网：因为样本量n = 51太小，而N = 10 亿很大，所以由这个样本得出的结论不可靠。

以下我们尝试从统计学角度给出一个严格评估。

商品总量中的正品率 p 是一个待确定且不可观测的参数。用 phat简单估计p，基本上不可能正确。换句话说，用一个点（phat）去估计另一个点（p），错误的概率极大。因而，工商总局的结论是不可靠的。也就是说，真正的 p 不等于37.25%。但差了多少呢？

N = 10 亿，而n = 51太小, 因而这样的样本不可用。此结论同样有问题。n = 51 是否小不是问题，如果此样本是简单随机样本（这方面信息不全，此处假设它成立），我们可以用精确置信区间估计p。想象一下，用炸弹炸人（区间估计）和用子弹打人（点估计），哪个更可靠。根据Wang（2014，Statistica Sinica， 24，p1389-1410），当x = 19，正品率p的95%精确置信区间等于[0.247， 0.513]。也就是说，我们以95%的信心声称陶宝网商品总量中正品率是在24.7%和51.3%之间。

这样的正品率顾客上帝们能接受吗？淘宝网运营小二，你怎么看？

应用Wang的方法于其他商家，

京东商城：n = 20， x = 18， p的95%置信区间等于[0.683， 0.982]

天猫：n = 7， x = 6，p的95%置信区间等于[0.445， 0.993]

1号店：n = 10，x = 8，p的95%置信区间等于[0.445， 0.964]

聚美优品：n = 3， x=3，p的95%置信区间等于[0.368， 1.00]

中关村电子商城：n = 1，x = 0，p的95%置信区间等于[0，0.95]。

以上结论是基于样本是随机样本的假设导出的。样本量n是多大和结论是否正确无关。总结一下，京东商城的正品率在以上商家中有最大的下界68。3%，因而正品率最高。呵呵，还是京东靠谱。

注：用Wald渐进置信区间估计p不能保证正确的置信度（95%），所以不用。

0%(0)

test　　/无内容 - hare 02/16/15 (238)

	实用资讯

回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉：海航获五星
海外华人福利！在线看陈建斌《三叉戟》热血归回豪情筑梦 高清免费看无地区限制

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖

2014:	乱侃向《物理评论》Chief-in-Editor 的
2014:	英语中感叹词或詈詞的委婉说法
2013:	比较政策：人权的自然属性与社会属性
2013:	指导一下如何让“龙芯”成功
2012:	走近量子（6）帮倒忙的贝尔
2012:	天蓉：阴谋政治-60-警商勾结顾客遭殃
2011:	哈佛才女杨元宁-王永庆的外孙女
2011:	重庆房地产税不合理的地方
2010:	富士康为何总把员工逼死
2010:	粒子 --- 自旋的弦（合并）