覆盖Django mysql model中save方法时碰到的一个数据库更新延迟问题

最近有一个需求，通过django的admin后台，可以人工配置5张表的数据，这些数据进行一些业务规则处理后会统一成一份数据缓存在一个cache之中供服务端业务访问，因而任何一张表的数据更新(增、删、改)，都要需要重新根据规则计算数据结果，并更新cache。

首先想到的方法就是覆盖每个表model子类中的save方法，在其中先调用父类的save方法走原有保存逻辑更新数据到数据库后，之后再单独调用一次cache的更新逻辑，这样每张表的任意数据被用户更新后，都将先触发model的数据库更新、而后执行cache的数据更新，其中Application表model的代码如下所示:

 1 class Application(models.Model):
 2     name = models.CharField(max_length=128, blank=False, verbose_name=u'应用名')
 3     description = models.TextField(blank=False, verbose_name=u'应用描述')
 4     status = models.IntegerField(verbose_name=u'状态', choices=APPLICATION_STATUS)
 5     mtime = models.DateTimeField(blank=False, verbose_name=u'修改日期', auto_now=True)
 6     ctime = models.DateTimeField(blank=False, verbose_name=u'创建日期', auto_now_add=True)
 7     class Meta:
 8         db_table = 'application'
 9         verbose_name_plural = u'应用'
10 
11     def save(self, *args, **kargs):
12         super(Application, self).save(*args, **kargs)
13         # 更新memcached逻辑实现函数，该函数为通用函数一部分，会单独建立mysql连接，查询数据库数据，并更新到memcached
14         update_memcached_from_mysql()

这样每次在web上新增或者修改数据表记录时，都会先执行父类save操作，save完成后，又会执行update_memcached_from_mysql函数，从mysql查询到最新数据，而后更新到cache之中了。

然而实际测试的时候，发现每次修改数据时，更新到cache的并不是最新数据，而是未修改前的旧数据，比如当前name="test0"，修改为name="test1"点击保存后，更新到cache之中的确还是test0，再次修改为name="test2",更新到cache之中的确实test1。

百思不得其解~怀疑是model执行save时，本地有cache会延迟更新，于是在super.save和update_memcached_from_mysql之间增加了time.sleep(10),并多次调用update_memcached_from_mysql函数，可是依然是每次修改保存时，更新到cache的数据都是修改前的取值:

1     def save(self, *args, **kargs):
2         super(Application, self).save(*args, **kargs)
3         # 更新memcached逻辑实现函数，该函数为通用函数一部分，会单独建立mysql连接，查询数据库数据，并更新到memcached
4         update_memcached_from_mysql()
5         time.sleep(10)
6         update_memcached_from_mysql()
7         time.sleep(10)
8         update_memcached_from_mysql()

想不出好的解决方案，猜测model真正将数据更新到数据的时机是在save整个函数执行结束后，臆测了如下更新逻辑：

1 子类save执行前
2 父类save执行
3 更新memcached
4 子类save执行结束
5 真正更新到数据库

于是必须想办法将第3步的cache更新逻辑挪到save执行结束后，然后要保证每次执行save操作时更新cache，这个位置又不能动~~

于是考虑通过开启独立线程异步执行的方式实现，改写update_memcached_from_mysql，在其中开启独立线程执行一个delay版本的更新函数，线程start后会先休眠n秒钟(n为可控参数，下例中为2)，而后才执行从数据库读取数据并更新到cache的逻辑，改完后手动更新数据多次，验证已经能拉取到最新数据。

1 def update_memcached_from_mysql():
2     """ 
3     猜测由于model的缓存机制，save函数执行完成前，新的数据可能未及时更新到数据库,
4     此处开启独立线程执行memcache更新操作，线程中会休眠数秒再从数据库拉取最新数据更新
5     """
6     td = threading.Thread(target=update_memcached_from_mysql_delay, args=(2, ))
7     td.start()

然而之前的更新流程还仅仅是猜测而已，虽然采用线程异步延迟更新cache的方法后，多次修改验证避开了取不到新数据的问题，并不就说明猜测一定是正确的，而且即便猜测是正确的，如果save函数执行完后，model的数据更新没有在线程延迟时间结束前完成，理论上还是会有问题，考虑可以通过设置一个定时任务，比如每隔10分钟定时执行cache更新逻辑，来保证新数据最多延迟10分钟也能生效。

本来想深入探究model save更新机制~然而最近太忙了~~blog都两周没更新了，初步尝试了一下也还没有研究清楚这一块save逻辑的源码，这个数据修改平台也仅供内部使用~~暂时先这么修补一下~~以后有时间再深究这一块的问题~~加入TODO list。

一些坑 Django Model SAVE delay Lazy Python

覆盖Django mysql model中save方法时碰到的一个数据库更新延迟问题

相关

学习《Python编程从入门到实践》PDF+代码训练

python-----面向对象简单理解

python多线程控制

Django url路由分配

Sublime 的安装、汉化、配置、Python环境和插件

python——time strftime() 函数表示当地时间

SpringMVC的请求和响应ModelAndView,Model,ResponseBody

python 初识函数

python 函数对象嵌套闭包

【Mysql学习】django.db.utils.OperationalError: (1045:Access denied for user 'roo

web框架们~Django~Flask~Tornado

Python栈溢出——设置python栈大小

标签